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内 容 提要 


本 书 探讨 了 如 何 通过 使 用 与 HBase 高 度 集成 的 Hadoop 将 HBase 的 可 
伸缩 性 变 得 人 简单， 把 大 型 数据 集 分 布 到 相对 廉价 的 商业 服务 絮 集 群 
中 ; 使 用 本 地 Java 客 户 问 ， 或 者 通过 提供 了 REST、Avro 和 Thrift 应 用 编 
程 接口 的 网 天 服务 器 来 访问 HBase; JS f#HBaseRWZT, ASA 
格式 、 预 写 日 志 、 后 人 台 进 程 等 ， 在 HBase 中 集成 MapReduce 框 架 THE 
如 何 调 蔬 集群、 设计 模式 、 揽 贝 表 、 导 入 批量 数据 和 删除 和 点 等 。 


”本 书 运 合 使 用 HBase 进 行 数据 库 开发 的 高 级 数据 库 研 发 人 员 阅 


O’Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 人 研究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 
趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 
为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 率 来 早 命 性 的 “动物 书 ”;， 创建 第 一 个 商业 
网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 
运动 以 此 命名 ， 创 立 了 Make 杂 志 ， 从 而 成 为 DIY 半 命 的 主要 先锋 ， 公 
司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O?Reilly 的 会 议和 峰 
会 集 涌 了 从 多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 搬 绘 出 开创 新 产 
业 的 章 命 性 思想 。 作 为 技术 人 士 获 取信 息 的 选择 ，O’Reilly 现 在 还 将 先 
峰 专 家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 
服务 或 者 面授 课程 ， 每 一 项 O’Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理 
言 轧 是 激发 创新 的 力量 。 


业界 评论 


人 
AEN 


“O’Reilly Radar RA O RR o ” 


Wired 


“O;Reilly 赁 借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 
想法 建立 了 数 百 万 美元 的 业务 。” 


Busincss 20 


“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典 
y, o 


“一 本 O”Reilly 的 书 束 代表 一 个 有 用 、 有 前 途 、 需 要 学 
习 的 主题 。” 


Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 ， 
最 广阔 的 视野 并 有 旦 切实 地 按照 Yogi Berra 的 键 议 去 做 了 “如 
果 你 在 路 上 遇 到 侈 路 口 ， 走 小 路 (A) 。’ 回 顾 过 去 Tim 
似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 内 即 逝 的 机 
会 ， 尺 管 大 路 也 不 错 。” 


Linux Journal 


感谢 我 的 妻子 Katja， 感 谢 我 的 女儿 Laura， 
以 及 我 的 儿子 Leon。 我 爱 你 们 ! 


推荐 序 


近年 来 ， 新 兴 的 互联 网 服务 领域 ， 以 及 电信 、 人 金融 和 交通 等 各 传 
统 行业 出 现 了 数据 资产 的 爆炸 性 增长 ， 这 些 数据 资产 的 类 型 以 非 结 构 
化 和 半 结 构 化 为 主 ， 如 何 低 成 本 且 高 效率 地 存储 和 处 理 PB 甚 至 EB 量 级 
的 数据 成 为 了 极 大 的 挑战 。 


Google 公 司 提出 的 MapReduce 编 程 框架 、GFS 文 件 系 统 和 BigTable 
存储 系统 成 为 了 大 数据 处 理 技术 的 开拓 者 和 领导 者 ， 而 源 于 这 三 项 技 
术 的 Apache Hadoop 等 开源 项 目 则 成 为 了 大 数据 处 理 技 术 的 事实 标准 ， 
迅速 推广 至 国内 外 各 大 互联 网 企业 ， 成 为 了 PB 量 级 大 数据 处 理 的 成 熟 
技术 和 系统 。 面 对 不 同 的 应 用 需求 ， 基 于 Hadoop 的 数据 处 理工 具 也 应 
运 而 生 ， 例 如 ，Hive、Pig 等 已 能 够 很 好 地 解决 大 规模 数据 的 离线 式 批 
量 处 理 问题 。 但 是 ，Hadoop HDFS 适 合 于 存储 非 结 构 化 数据 ， 且 受 限 
于 HadoopMapReduce 编 程 框架 的 高 延迟 数据 处 理 机 制 ， 使 得 Hadoop 无 
法 满足 大 规模 数据 实时 处 理应 用 的 需求 。 


传统 的 信息 系统 和 和 Web 应 用 大 多 采用 LAMP 架 构 构 建 ， 并 使 用 关 
系 型 数据 库存 储 、 组 织 和 管理 结构 化 或 半 结 构 化 数据 。 通 用 的 关系 型 
数据 库 无 法 很 好 地 应 对 在 数据 规模 剧 增 时 导致 的 系统 扩展 性 和 性 能 问 
题 。 因 此 ， 业 界 出 现 了 一 类 面 癌 半 结 构 化 数据 存储 和 处 理 的 高 可 扩 
展 、 低 写 入 / 碍 询 延 迟 的 系统 ， 例 如 ， 键 值 存 储 系统 、 文 档 存 储 系统 和 
类 BigTable 存 储 系统 等 ， 这 些 特性 各 异 的 系统 也 可 统称 为 NoSQL 系 
统 。Apache HBase 就 是 其 中 已 迈 问 实用 的 成 熟 系统 之 一 。HBase 之 所 
以 能 成 为 迈 回 实 用 的 成 熟 系统 ， 一 是 核心 思想 来 源 于 Google 的 
BigTable， 二 是 有 Apache 及 Hadoop 开 源 社 区 的 支撑 ， 三 是 有 诸如 
Facebook、 淘 宝 和 支付 宝 等 互联 网 公司 的 应 用 实践 ， 保 证 了 HBase 系 
统 的 稳定 性 和 可 用 性 。 目 前 ， 作 为 关系 型 数据 库 的 有 益 补 充 ，HBase 
ae 于 互联 网 服务 领域 和 传统 行业 的 众多 在 线 式 数据 分 析 处 理 


本 书 涉 及 HBase 使 用 和 开发 过 程 中 的 各 方面 内 容 ， 章 组 织 由 浅 
入 深 ， 内 容 转述 细致 入 微 并 且 贴 近 实 际 ， 可 以 作为 参考 书 以 方便 读者 
在 开发 过 程 中 随时 查阅 。 本 书 译 者 之 一 刘 佳品 HBase 开 源 社 区 提交 过 
多 项 错误 修复 和 新 功能 ， 参 与 过 多 项 HBase 有 关 的 大 数据 分 析 系 统 研 
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用 者 和 开发 者 来 说 ， 都 是 及 时 和 不 可 或 缺 的 。 
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译 者 序 


随 看 历史 数据 的 积 素 和 数据 量 的 高 速 增长 ， 海 量 数据 领域 越 来 越 
被 重视 ， 且 该 领域 涌现 出 了 非常 多 的 新 技术 。 技 术 的 发 展 和 时 间 的 沉 
演 使 得 HBase 开 始 被 大 家 广泛 认可 ， 成 为 海量 数据 在 线 存 储 领 域 的 百 


选 


本 书 是 讲述 HBase 相 关 技术 的 第 一 本 图 书 ， 也 是 著名 图 书 出 版 商 
O’Reilly 出 版 发 行 的 HBase 权 威 书籍 。 


本 书 从 架构 、 开 发 、 应 用 和 运 维 等 多 个 角度 描述 了 HBase， 深 入 
介绍 了 HBase 内 核 的 原理 和 机 制 以 及 社区 的 发 展 方向 ， 并 提供 了 应 用 
层面 的 多 种 示例 和 源 代码 。 本 书 为 每 个 用 例 和 知识 点 提供 了 丰富 的 解 
释 和 注意 要 点 ， 使 用 户 可 以 由 浅 入 深 地 了 解 原理 并 深度 使 用 其 功能 ， 
并 且 体 现 了 在 HBase 教 学 方面 的 最 新 进展 和 最 高 水 平 。 


本 书 的 成 功 离 不 开 Lars George 的 努力 。 在 HBase 还 处 于 萌 节 时 期 
HT, Lars George 就 开始 投入 了 大 量 的 精力 ， 从 修复 HBase 中 的 问题 到 
优化 性 能 ， 推 广 HBase 并 编写 HBase 可 用 性 文档 ， 他 是 HBase 领 域 里 大 
人 ° 而 这 本 《HBase 权 威 指南 》 人 花费 了 Lars George 许 多 的 时 
IBJAU AB TI e 


阅读 本 书后 ， 我 们 不 得 不 承认 这 本 大 师 级 的 著作 很 好 地 应 对 了 社 
区 中 HBase 发 展 所 面临 的 挑战 。 不 得 不 说 的 是 ， 本 书 者 作 和 翻译 经 历 
的 时 间 较 长 ， 而 社区 中 HBase 发 展 速 度 较 快 ， 许 多 版 本 已 经 发 行 ， 许 
多 问题 也 得 以 修复 ， 因 此 ， 本 书 最 终 落 地 后 会 与 最 刹 HBase 版 本 的 功 
能 特性 有 少许 摘 述 性 出 入 ， 还 望 广大 读者 见谅 。 


在 翻译 过 程 中 ， 我 们 深刻 地 发 现 国 外 技术 领域 的 专业 性 ， 深 深 地 
被 世界 级 的 高 水 平 技术 所 震撼 。 我 们 由 训 地 希望 本 书 中 文 版 的 出 版 能 
够 推动 国内 HBase 教 学 、 使 用 和 发 展 。 本 书 译 者 代 志 远 在 翻译 期 间 束 
职 于 阿里 巴巴 ， 译 者 刘 佳 是 中 科 院 计算 所 研究 生 ， 现 为 普 泽 天 现 技 术 
总 监 ， 译 者 将 杰 在 腾讯 担任 数据 与 运营 文 撑 平台 副 总 经 理 。 


B00 R E 
本 书 中 概念 和 术语 较 多 ， 许 多 概念 和 术语 尚 无 公认 的 中 文 译 法 ， 
加 之 译 者 水 平 有 限 ， 译 文中 大 有 不 有 溉 之 处 ， 居 请 读者 批评 指正 。 
代 志 远 
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HBase 的 故事 开始 于 2006 年 ， 当 时 旧金山 的 Powerset 创 业 公 司 试 
建立 一 个 网 页 的 目 然 语言 搜索 引擎 ， 但 他 们 构建 索引 时 涉及 一 个 复杂 
的 过 程 ， 比 标准 的 分 词 索 引 结果 集 大 了 两 个 数量 级 。 他 们 曾经 使 用 
Amazon Web Service 存 储 索 引 ， 但 是 爬虫 抓 取 过 程 中 的 负 谷 主 要 集中 
在 此 。 (TER, TERRE! 这 里 是 AWS， 无 论 你 正在 运行 什 
么 ， 请 停止 运行 ! ”) 他 们 恰好 在 寻求 解决 方案 ， 而 此 时 Google 的 
BigTable 论 文 发表 了 。 


Powerset 公 司 的 工程 负责 人 Chad Walters 此 时 发 表 了 如 下 的 言论 : 


与 Google 基 于 GFS (Google File System) 构建 的 
BigTable 一 样 ， 在 Hadoop 的 分 布 式 文件 系统 (HDFS) 基 
础 上 构建 一 个 开源 系统 是 一 个 非常 不 错 的 主意 : (1) 这 
套 架 构 是 成 熟 的 并 且 可 拓展 ;，(2) 我 们 可 以 直接 利用 
Hadoop 的 HDFS; (3) 我 们 可 以 扩大 Hadoop 生 态 系 统 的 
影响 力 。 


BigTable 论 文 发 表 后 ， 在 社区 中 ， 人 们 一 次 又 一 次 地 讨论 基于 
Hadoop 构 建 类 BigTable 系 统 的 可 行 性 。 在 2007 年 年 初 ，Mike Cafarela 
出 平 意料 地 在 Hadoop 的 问题 跟踪 系统 中 上 传 了 一 个 包含 30 多 个 Java 文 
件 的 tar 包 : “我 实现 了 一 个 类 BigTable 架 构 的 存储 系统 demo， 叫 做 
HBase， 虽 然 它 还 不 完善 ， 但 是 它 已 经 做 好 准备 让 用 户 进行 实验 和 检 
查 了 。”Mike 与 Doug Cutting 在 Nutch (一 个 开源 搜索 3 引 敬 ) 项 目 中 长 期 
共事 ，Doug Cutting 在 Nutch 中 实现 了 一 个 类 似 于 Google 分 布 式 文件 系 
统 的 项 目 来 管理 磁盘 ， 因 此 Nutch 中 构建 的 索引 存储 可 以 不 仅仅 存储 在 
一 台 机 器 中 (Nutch 分 布 式 文件 系统 最 后 发 展 成 为 了 HDFS) ° 


Powerset 公 司 的 Jim Kellerman 增 加 了 测试 用 例 并 填补 了 其 他 空 
日 ， 使 得 HBase 可 以 作为 Hadoop 的 一 部 分 代码 进行 提交 。Doug Cutting 
在 2007 年 4 月 3 日 完成 了 HBase 的 第 一 次 代码 提交 ， 代 码 提 交 到 了 
Hadoop 工 程 根 目录 的 contrib 子 目录 中 。HBase 的 第 一 个 版 本 在 2007 年 
10 月 作为 Hadoop 0.15.0 的 一 部 分 发 布 了 。 


没 过 多 和 久 ， 本 书 作 者 Lars 开 始 在 扣 base IRC 交 流 频道 出 现 。 当 时 
Lars 面 临 大 数据 的 问题 ， 并 且 演 试用 HBase 来 解决 这 个 问题 。 经 过 一 番 
对 将 的 摸索 ，Lars 成 为 了 Powerset 之 外 的 HBase 的 第 一 个 用 户 。 我 清楚 
地 记得 ，Lars 当 时 记录 了 他 在 WorldLingo 公 司 的 生产 集群 的 问题 反馈 
清单 ，Lars 当 时 在 这 家 公司 担任 CTO。 清单 展示 了 他 们 的 生产 集群 中 
HBase 的 10 个 版 本 (从 Hadoop 0.15.1 到 HBase 0.20) ， 每 个 版 本 的 集群 
都 有 将 近 40 台 机 器 。 


在 这 些 年 来 所 有 为 HBase 做 出 页 献 的 人 中 ， 具 有 史诗 般 意义 的 整 
是 Lars， 因 为 他 写 了 这 本 书 。Lars 一 直 在 为 HBase 页 献 文 档 ，HBase 想 
要 被 更 好 地 使 用 和 推广 ， 就 需要 有 良好 的 文档 。 每 个 人 都 同意 Lars 的 
想法 ， 并 且 能 够 专注 地 投入 编程 工作 中 ， 因 此 Lars 在 工作 和 欧洲 旅行 
期 间 开 始 编写 如 何 使 用 HBase 的 文档 和 架构 描述 ， 并 承担 起 了 HBase 非 
官方 的 欧洲 大 使 职责 。Lars 在 其 关于 HBase 的 博客 ( 
http://www.larsgeorage.com ) 中 记录 了 HBase 的 工作 原理 ， 并 在 关键 阶 
段 推 动 了 HBase 社 区 的 发 展 (一 篇 重要 的 博客 文章 解释 了 HBase 依 赖 
Ivy 进 行 编译 是 个 非常 棒 的 主意 ) 。 


在 微软 公司 赞助 HBase 的 时 期 ，HBase 也 发 生 了 非常 有 趣 的 事情 。 
Powerset 在 2008 年 7 月 被 微软 收购 ， 在 此 期 间 其 员工 不 允许 页 献 代 码 ， 
因为 微软 法 务 部 门 需要 审核 HBase 代 码 库 并 查看 HBase 与 SQLServer 的 
关系 ， 直 到 一 个 月 后 才 宣 布 重 新 页 献 代 码 给 社区 (我 是 微软 的 一 名 员 
工 ， 全 职 为 Apache 开 源 项 目 工 作 ) 。 之 后 Facebook 也 开始 使 用 
HBase， 用 于 存储 海量 的 邮件 信息 或 点 击 信 息 ， 后 来 Yahoo 部 署 了 1000 
人 台 HBase 集 群 用 于 定位 微软 Bing 的 候 虫 快照 。 同 期 非 运行 在 HDFS 上 的 
MapR 系 统 也 仍 处 在 开发 中 


我 很 清楚 ， 社 区 和 HBase 的 发 展 得 利于 一 群 HBase 的 核心 committer 
的 闻 可 努力。 一些 核心 开发 成 员 ， 如 Todd Lipcon ` Gary Helmling 和 
Nicolas Spiegelberg， 已 经 付出 了 多 年 的 努力 ， 没 有 他 们 我 们 无 法 走 到 
今天 这 一 步 ，HBase 目 前 已 经 从 一 个 分 文 代码 成 长 为 了 一 个 独立 存储 
mH ° Jonathan Gray 冒险 将 其 初创 的 streamy.com 网 站 基于 HBase 进 行 


建设 ，Andrew Purtell 在 趋势 科技 组 建 了 一 只 HBase 团 队 ，Ryan Rawson 
得 到 了 StumbleUpon 的 赞助 ， 这 是 HBase 在 Powerset、 微 软 之 后 获得 的 
最 主要 的 赞助 ， 并 且 还 发 掘 了 一 个 非常 厉害 的 commiter John- 
Daniel Cryans ， 而 当时 Cryans 还 只 是 一 个 繁忙 的 学 生 。 之 后 Lars 不 断 地 
修复 缺 隐 ， 并 搜 写 文档 。 因 此 ，Lars 是 押 写 第 一 本 关键 的 HBase 书 籍 的 
最 佳人 选 ， 也 让 所 有 人 都 可 以 了 解 HBase。 


Michael Stack，HBase 项 目 管理 人 


-La 


前 言 


你 阅读 本 书 的 理由 可 能 有 很 多 。 可 能 是 因为 听 说 了 Hadoop， 并 了 
解 到 它 能 够 在 合理 的 时 间 范 围 内 处 理 PB 级 的 数据 ， 在 研读 Hadoop 的 过 
程 中 发 现 了 一 个 处 理 随机 读 写 的 系统 ， 它 叫做 HBase。 或 者 将 其 称 为 
目前 流行 的 一 种 新 的 数据 存储 架构 ， 传 统 数 据 库 解 决 大 数据 问题 时 成 
本 更 高 ， 更 适合 的 技术 范围 是 NoSQL 。 


无 论 你 是 如 何 来 到 这 里 的 ， 我 都 希望 你 能 够 了 解 并 学 习 如 何在 企 
业 或 组 织 中 使 用 HBase 解 决 海量 数据 问题 。 你 可 能 有 关系 型 数据 库 的 
育 景 ， 但 更 希望 去 研究 这 个 “ 列 式 存储 ?系统 ; 也 许 你 听 说 HBase 能 够 
不 费力 地 进行 线性 拓展 ， 并 且 有 足够 的 理由 成 为 下 一 代 网 络 系统 。 


在 2007 年 年 底 ， 我 曾 面临 百 万 级 的 文档 存储 需求 ， 并 且 需 要 满足 
容错 和 可 扩展 等 要 求 。 我 拥有 丰 语 的 MySQL 数 据 库 经 验 ， 并 使 用 这 种 
数据 库 来 存储 数据 ， 最 终 服务 于 我 的 网 站 的 用 户 。MySQL 可 以 在 运行 
于 一 台 服 务 器 的 同时 ， 拥 有 男 一 人 台 备 份 服务 器 ， 其 无 法 应 对 如 此 海量 
数据 的 处 理 ， 于 是 我 只 好 寻找 其 他 可 用 的 存储 数据 库 。 


我 的 口头 禅 是 : “Google 是 如 何 解 决 这 类 问题 的 ? ”后 来 我 接触 了 
Hadoop， 在 短暂 使 用 Hadoop 之 后 ， 我 面临 随机 读 写 的 问题 一 一 但 是 这 
个 问题 已 经 得 以 解决 ，2006 年 Google 发 表 了 BigTable © X, Hadoop 
开发 者 拥有 了 BigTable 的 开源 实现 ， 并 称 其 为 HBase。 这 就 是 解决 我 的 
问题 的 答案 ， 所 以 这 一 切 看 起 来 顺理成章 .…… 


如 今 ， 我 已 经 不 再 回忆 目 己 刚 开 始 接触 Hadoop 和 HBase 的 日 子 有 
多 艰难 了 。 我 硕 望 可 以 从 今天 开始 使 用 HBase，HBase 目 前 已 经 成 熟 ， 
接近 1.0 版 本 ， 并 且 目 前 已 经 有 大 量 知名 企业 在 使 用 ， 如 Facebook、 
Adobe、Twitter、Yahoo!、 趋 势 科 技 和 StumbleUpon ( 
http://wiki.apache.org/hadoop/HBase/PoweredBy ) 。 我 的 集群 是 第 一 个 
生产 集群 GSS Aik) ， 到 目前 也 遇 到 了 许多 有 趣 的 问题 。 


如 预期 所 料 ，HBase 从 0.1x 版 本 开始 成 为 社区 项 目 ， 我 有 到 为 这 个 
项 目 贡 献 代码 ， 并 最 终 和 被 要 求 成 为 全 职 的 committer ° 


过 去 几 年 我 从 其 他 开发 者 身上 学 到 了 许多 知识 ， 并 且 一 直 在 努力 
地 学 习 。 我 的 信念 是 ， 我 们 还 远 没有 达到 这 个 技术 的 顶峰 ， 而 这 个 技 
术 也 会 随 着 时 间 的 推移 不 断 地 成 长 和 演变 。 让 我 们 用 这 本 书 对 整个 
HBase 开 发 者 社区 致 以 敬意 ， 我 的 写作 目标 不 仅仅 是 覆 凋 HBase 的 工作 
机 制 ， 而 且 还 要 为 用 户 提供 如 何 将 这 一 技术 用 到 自己 的 使 用 场景 中 。 


我 强烈 地 感觉 到 你 来 到 这 里 的 原因 是 打算 使 用 HBase 解 决 你 遇 到 
的 问题 。 现 在 让 我 们 来 解 开 谜 确 。 


基本 信息 
在 我 们 开始 之 前 ， 以 下 是 一 些 基 本 介绍 。 
HBase 版 本 


在 写 这 本 书 时 ，HBase 社 区 已 经 决定 发 布 0.92.0 版 本 ， 社 区 主干 的 
代码 已 经 开发 完成 ”( http://svn.apache.org/viewvc/hbase/trunk/ ) ， 之 
前 刚刚 发 布 了 0.91.0- SNAPSHOT 版 本 。 


我 们 很 难 跟 上 开发 的 步伐 ， 因 为 这 本 书 有 一 个 截止 日 期 一 在 
0.92.0 版 本 发 布 之 前 。 因 此 ， 它 只 能 记录 到 一 个 特定 的 修订 版 1130916 
( http://svn.apache.org/viewvc/hbase/trunk/?pathrev=1130916 ) 为 止 。 
如 果 你 发 现 书 中 描述 的 和 HBase 提 供 的 之 间 似 乎 并 不 匹配 ， 你 可 以 使 

用 以 上 的 版 本 与 最 新 版 本 比 对 近期 的 修改 。 


我 们 正 尽 一 切 努 力 更 新 本 书 网 站 (http:/www.hbasebook.com ) 上 
的 JDiff (比较 不 同 软 件 版 本 的 工具 ) 文档 。 使 用 它 可 以 快速 看 到 不 同 
版 本 间 有 什么 变化 。 


编译 示例 程序 


有 关 这 本 书 的 示例 代码 可 以 在 GitHub 中 ( 
http://github.com/larsgeorge/hbase-book ) 找到 更 详细 的 信息 。 为 了 简 
提供 了 部 分 代码 请 段 ， 即 重要 代码 ， 尽 量 避 免 出 现 重 复 的 


BES BF EB BE SB Fe PC De, AEREA D 
能 找到 这 些 示 例 。 每 革 都 有 独立 目录 ， 呈 树 形 结构 ， 更 利于 用 户 碍 
正在 读 第 3 章 ， 你 可 以 到 对 应 目 孙 下 得 找 第 3 草 完 整 的 示例 
源 代 码 。 


许多 示例 中 所 示 特 性 都 使 用 了 内 部 辅助 类 来 协助 运行 。 例 如 ， 使 
用 了 HBaseHelper 类 来 建立 测试 环境 和 收集 测试 结 采 。 你 可 以 根据 具体 
AE ， 或 植 入 错误 数据 以 观察 示例 中 所 示 特 性 的 行 


编译 示例 代码 需要 借助 以 下 辅助 的 命令 行 工 具 。 
Java 


HBase 是 使 用 Java 语 言 实现 的 系统 ， 因 此 必然 需要 Java 环 幸 。2.2.3 
世 的 "Java 描述 了 应 该 如 何 安装 Java 环 境 。 


Git 
示例 源 代码 是 通过 GitHub 来 提供 托管 服务 ， 因 此 我 们 还 需要 文 持 
一 个 分 布 式 版 本 协作 控制 系统 ，Linux 内 核 开 发 最 初 就 依托 此 


| eee o 2 开源 社区 提供 了 非常 多 的 Git 客 户 端 二 进 制 安装 
FY ° 


Git 


此 外 ， 用 户 还 可 以 通过 GitHub 提 供 的 下 载 链接 ( 
https://github.com/larsgeorge/hbase-book/archives/master ) 下 载 文件 的 
静态 快照 


Maven 


书 中 提供 的 代码 编译 过 程 是 通过 Apache Maven © 完成 的 。 它 使 用 
Project Object Model (POM) 来 描述 编译 的 过 程 ， 其 中 包括 有 哪些 代 
码 可 以 编译 以 及 哪些 不 需要 编译 。 因 此 读者 需要 首先 下 载 Maven 安 装 
库 并 在 本 机 上 进行 安装 。 


一 旦 读者 按照 上 述 信息 安装 好 所 需要 的 工具 ， 就 可 以 按照 以 下 命 
令 开始 编译 项 目 。 


~$ cd /tmp 


/tmp$ git clone git://github.com/larsgeorge/hbase-book.git 


Initialized empty Git repository in /tmp/hbase-book/.git/ 
remote: Counting objects: 420, done. 

remote: Compressing objects: 100% (252/252), done. 
remote: Total 420 (delta 159), reused 144 (delta 58) 
Receiving objects: 100% (420/420), 70.87 KiB, done. 
Resolving deltas: 100% (159/159), done. 

/tmp$ cd hbase-book/ 


/tmp/hbase-book$ mvn package 


[INFO] Scanning for projects... 

[INFO] Reactor build order: 

[INFO] HBase Book 

[INFO] HBase Book Chapter 3 

[INFO] HBase Book Chapter 4 

[INFO] HBase Book Chapter 5 

[INFO] HBase Book Chapter 6 

[INFO] HBase Book Chapter 11 

[INFO] HBase URL Shortener 

[INFO] ----- 9-22 e E E A EA A E 
[INFO] Building HBase Book 

[INFO] task-segment: [package] 

[INFO] ------ 22-22-22 e en e ee eee Ea eene 
[INFO] [site:attach-descriptor {execution: default-attach- 
descriptor}] 

本 中 | 可 | 
[INFO] Building HBase Book Chapter 3 

[INFO] task-segment: [package] 

[INFO] -------- 2-22 2 nn nn nen a ee ee a eee eee 
[INFO] [resources:resources {execution: default-resources} ] 

[INFO] ------- 2-222 22 o ne nnn nn ee ee ee ee eee eee eee 
[INFO] Reactor Summary: 


[INFO] 


[INFO] HBase Book .os SUCCESS 
[1.601s] 

[INFO] HBase Book Chapter 3 .i SUCCESS 
[3.233s] 

[INFO] HBase Book Chapter 4 ii SUCCESS 
[0.589s] 

[INFO] HBase Book Chapter 5 .i SUCCESS 
[0.162s] 

[INFO] HBase Book Chapter 6 .iii SUCCESS 
[1.354s] 

[INFO] HBase Book Chapter 11 .i SUCCESS 
[0.2718] 

[INFO] HBase URL Shortener .i SUCCESS 


[INFO] BUILD SUCCESSFUL 

[INFO] ------ 22-222 on nn nn ee ee ee ee eee eee eee 
[INFO] Total time: 12 seconds 

[INFO] Finished at: Mon Jun 20 17:08:30 CEST 2011 

[INFO] Final Memory: 35M/81M 

[INFO] ----- 9-22-22 nn nn er nnn nn a ee ee eee eee eeee 


这 上 段 信息 意味 着 有 依赖 关系 的 库 已 经 下 载 到 了 本 地 目录 ， 源 代码 
也 随后 编译 成 功 了 。 在 每 个 子 目 录 的 target 文件 夹 下 都 留 下 了 编译 后 
的 JAR 文 件 ， 即 每 章 的 源 代 码 和 .class 文件 归档 : 


/tmp/hbase-book$ 1s -1 ch04/target/ 


total 152 
drwxr-xr-x 48 larsgeorge wheel 1632 Apr 15 10:31 classes 
drwxr-xr-x 3 larsgeorge wheel 102 Apr 15 10:31 


generated-sources 

-rw-r--r-- 1 larsgeorge wheel 75754 Apr 15 10:31 hbase- 
book-ch04-1.0.jar 

drwxr-xr-x 3 larsgeorge wheel 102 Apr 15 10:31 maven- 
archiver 


上 述 场 景 中 ，hbase-book-ch04-1.0.jar 文件 包含 了 第 4 章 的 示例 代 
码 。 我 们 可 以 使 用 如 下 命令 进行 测试 : 


/tmp/hbase-book$ cd ch04/ 


/tmp/hbase-book/ch04$ bin/run.sh client .PutExample 


/tmp/hbase-book/ch04$ bin/run.sh client .GetExample 


Value: vali 


oe 已 经 配置 了 所 需 的 Java classpath， 并 添加 了 依赖 的 JAR 
f o 


Hush: HBase URL 5 


通过 了 解 HBase 提 供 的 功能 来 了 解 HBase 是 一 个 好 办 法 。 本 书 使 用 
了 具有 代表 性 的 表 的 集合 作为 例子 ， 并 包含 具体 的 数据 ， 这 样 可 以 很 
容易 地 理解 经 过 操作 后 数据 状态 前 后 改变 的 过 程 。 读 者 可 以 执行 每 一 
个 示例 并 查阅 结果 ， 该 结果 应 该 与 书 中 提供 的 结果 匹配 。 修 改 示 例 是 
进一步 探讨 和 研究 HBase 的 好 方法 ， 借助 辅助 类 可 以 进行 更 有 效 的 验 


在 前 期 的 学 习 过 程 中 ， 了 解 系统 所 有 的 功能 是 非常 重要 的 一 个 环 
斑 ， 而 这 本 书 恰好 提供 了 一 个 现实 中 的 例子 来 展示 HBase 的 大 部 分 功 
能 。 同 时 这 个 例子 也 被 用 于 与 其 他 存储 数据 库 进 行 对 比 ， 例 如 ， 与 传 
统 的 基于 RDBMS 的 系统 进行 对 比 。 


这 个 应 用 的 名 称 叫 做 Hush HBase URL Shortener (HBase URL 
简写 ) 。 互 联网 提供 了 非常 多 的 服务 ， 每 个 服务 都 可 以 通过 URL 来 访 
问 。 例 如 ， 你 提交 了 一 个 网 页 ， 但 你 得 到 了 一 个 返回 的 短 网 址 。 例 
如 ，Twitter 每 次 只 运行 并 发 送 最 多 140 个 字符 ， 但 URL 最 长 可 达到 4096 
ener 以 节省 更 多 的 空间 给 实 
示 内 容 。 


例如 ， 这 十 由 Google HI 5| A Californial’)SebastopolHURL: 


http://maps.google.com/maps? 
f=q&source=s_q&hl=en&geocode=&q=Sebastopol, \ 
+CA, tUnited+States&aq=0&s11=47 . 85931, 10.85165&sspn=0.93616, 1.34582 


5&ie=UTF8& \ 
hq=&hnear=Sebastopol, +Sonoma, +California&z=14 


经 过 Hush 模 式 ， 其 可 以 转化 成 如 下 URL: 


http://hush. 11/1337 


显然 ， 这 个 URL 更 短 ， 更 有 利于 复制 到 电子 邮件 ， 或 通过 限制 字 
数 的 媒体 〈 如 Twitter 和 SMS) 发 送 。 


但 是， 这 种 服务 并 不 仪 仅 古 一 张大 的 查询 表 。 诚 然 ， 非 泗 多 的 用 
户 布 望 能 够 映射 短 网 址 到 完整 网 址 ， 但 需求 并 不 仅仅 如 此 。 用 户 更 多 
的 是 想 了 解 短 网 址 客 竞 被 使 用 了 多 少 次 ? 因此 短 网 址 殉 需 要 保留 一 个 
计数 右 ， 用 于 在 用 户 点 击 网址 的 时 候 进 行 统 计 。 


更 高 级 的 功能 是 ， 用 户 可 以 使 用 固定 的 域名 或 定制 的 短 网 址 ID 而 
不 是 目 动 生成 的 地 址 ， 殊 像 上 面 例子 描述 的 那样 。 用 户 必 须 能 够 登录 
短 网 址 跟踪 ， 并 查看 日 、 周 、 月 报表 。 


所 有 的 这 些 都 在 Hush 模 式 中 实现 了 ， 用 户 可 以 很 容易 地 编译 和 和 运 
行 。 它 使 用 了 HBase 的 大 多 数 功能 ， 在 适当 的 时 机 我 们 会 讨论 这 些 问 


题 。 
用 户 可 以 自己 创建 账号 并 使 用 Hush， 这 也 是 一 个 了 解 如 何 从 已 有 


系统 导入 数据 的 好 例子 。 本 书 使 用 了 网 络 上 提供 的 数据 集合 : 
Delicious RSS feed。 这 里 面 有 少量 集合 是 可 以 随意 下 载 的 。 


使 用 场景 : Hush 


留意 本 书 中 从 Hush 角 度 解释 的 功能 。 很 多 地 方 使 用 
了 Hush 的 示例 代码 ， 但 是 它 仅仅 保持 在 非常 简单 的 展示 
这 一 层面 。Hush 作 为 一 个 使 用 场景 更 多 的 是 应 用 在 生产 
系统 中 。 


Hush 没 有 华丽 的 UI， 只 有 朴实 的 功能 ，Hush 在 经 过 
负载 均衡 后 达到 数 千 的 TPS 请 求 完全 没有 困难 。 


有 关 Hush 如 何 运 行 的 代码 片段 已 经 在 本 书 中 进行 了 
描述 ， 完 整 的 代码 可 以 从 Git 库 中 下 载 并 独立 运行 、 调 整 
和 学 习 有 关 它 的 一 切 ! 


运行 Hush 


使 用 示例 代码 编译 和 运行 Hush 非 常 简 单 ， 一 旦 用 户 可 以 克隆 或 下 
载 ， 束 执行 以 下 命令 : 


$ mvn package 


编译 整个 工程 后 ， 读 者 束 可 以 使 用 以 下 命令 来 运行 Hush: 


$ hush/bin/start-hush.sh 


Starting Hush... 


INFO [main] (HushMain.java:57) - Initializing HBase 
INFO [main] (HushMain.java:60) - Creating/updating HBase schema 


INFO [main] (HushMain.java:90) - Web server setup. 

INFO [main] (HushMain.java:111)- Configuring security. 

INFO [main] (Sl1f4jLog.java:55) - jetty-7.3.1.v20110307 

INFO [main] (Sl1f4jLog.java:55) - started ... 

INFO [main] (S1lf4jLog.java:55) - Started 
SelectChannelConnector@0.0.0. 0:8080 


看 到 控制 台中 的 最 后 一 行 输 出 后 ， 读 者 可 以 直接 通过 浏 贤 絮 访问 
http://localhost:8080 进入 Hush 服 务 器 进行 处 理 。 


由 于 数据 已 经 存储 在 了 HBase 中 ， 因 此 用 户 可 以 放心 地 执行 Ctrl+C 
来 停止 Hush 的 启动 脚本 © 


排版 约定 
本 书 使 用 如 下 排版 约定 。 


RHE: URL、 文 件 名 、 文 件 后 缀 和 Unix 命 令 

等 宽 代 码 字体 : 用 于 程序 消音 功能 变量 、 环境 变量 ` 数据 类 
型 、 描 述 和 关键 字 

is 展示 命 va 令 或 其 他 应 该 由 用 户 输 入 的 文本 ， 
也 用 于 代码 清单 中 强调 的 部 分 

RA Se Be SSA: 展示 应 该 使 用 用 户 所 提供 的 值 或 根据 上 下 广 
确定 的 值 来 蔡 换 的 文本 。 


”这 个 图 表示 一 个 提示 、 建 议 或 一 般 的 注意 。 


| 
一 广 个 图 表示 警告 或 需要 谨慎 处 理 。 


代码 示例 


本 书 的 目标 是 帮助 你 完成 工作 。 一 般 而 言 ， 你 可 以 在 目 己 的 程序 
和 文档 中 使 用 本 书 中 的 代码 ， 如 采 你 有 要 复 制 的 不 是 核心 代码 ， 则 无 须 
取得 我 们 的 许可 。 例 如 ， 你 可 以 在 程序 中 使 用 本 书 中 的 多 个 代码 块 ， 
无 须 获 取 我 们 许可 。 但 是 ， 要 销售 或 分 发 来 源 于 O’Reilly 图 书 中 的 示例 
的 区 盘 则 需要 取得 我 们 的 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 问 
题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 是 ， 如 采 你 的 产品 文档 中 融合 
了 本 书 中 的 大 量 示 例 代 码 ， 则 需要 取得 我 们 的 许可 。 


在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 的 属性 信息 是 最 好 
不 过 了 “。 属 性 信息 通常 包括 书 名 、 作 者 、 出 版 社 和 ISBN。 例 
如 : “HBase: The Definitive Guide by Lars George (O’Reilly). Copyright 
2011 Lars George, 978-1-449-39610-7” ° 

在 使 用 书 中 的 代码 时 ， 如 有 果 不 确 定 征 否 属于 合理 使 用 ， 或 是 否 超 
出 了 我 们 的 许可 ， 请 通过 permissions@oreilly.com 与 我 们 联系 。 
我 们 的 联系 方式 

如 打 你 想 加 本 书 发 表 评 论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 

美国 : 


O’Reilly Media Inc. 


1005 Gravenstein Highway North 


Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 
(100035) 


RS AIBOR Ai (北京 ) 有 限 公 司 


我 们 还 为 本 书 建 六 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 
额外 的 信息 。 你 可 以 通过 如 下 地 址 访问 该 网 页 : 


http://www.oreilly.com/catalog/9781449396107 
作者 还 为 本 书 创建 了 一 个 网 站 : 
http://nbasebook.com/ 
天 于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 


bookquestions@oreilly.com 


欢迎 登录 我 们 的 网 站 ( http://www.oreilly.com ) ， 查 看 更 多 我 们 
的 书籍 、 课 程 、 会 议和 最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 。 


Facebook: http://facebook.com/oreilly 


Twitter: http:/twitter.com/oreillymedia 


YouTube: http:/www.youtube.com/oreillymedia 
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第 1 章 ”简介 


在 探究 HBase 的 功能 之 前 ， 我 认为 有 必要 移 来 思考 一 下 为 什么 要 设 
计 出 这 样 一 套 新 的 存储 架构 。 传 统 的 关系 型 数据 库 管 理 系统 
(Relational Database Management System, RDBMS) 早 在 20 世 纪 70 年 
代 已 经 出 现 ， 并 且 帮 助 无 数 的 公司 和 机 构 实 现 了 给 定 问题 的 解决 方 
案 ， 时 至 今日 ，RDBMS 仍 旧 非 常 有 用 。 很 多 情况 下 关系 模 型 都 能 够 非 
名 完美 地 前 述 问 题 ， 但 是 在 面 对 一 些 特 殊 的 场景 时 天 系 模 型 并 不 是 最 
佳 的 解决 方案 。 ® 


1.1 海量 数据 的 黎明 


我 们 生活 在 一 个 互联 网 时 代 ， 无 论 是 想 搜 索 最 佳 的 火 鸡 采 谱 ， 还 
古 送 妈妈 什么 样 的 生日 礼物 ， 都 布 望 能 够 通过 互联 网 迅速 地 检索 到 问 
题 的 答案 ， 同 时 和 希望 查询 到 的 结果 有 用 ， 而 且 非 常 切 合 我 们 的 需要 。 


因此 ， 很 多 公司 开始 致力 于 提供 更 有 针对 性 的 信息 ， 例 如 推荐 或 
在 线 广告 ， 这 种 能 力 会 直接 影响 公司 在 商业 上 的 成 败 。 现 在 类 似 
Hadoop 2 这 样 的 系统 能 够 为 公司 提供 存储 和 处 理 PB 级 数据 的 能 力 ， 随 
着 新 机 器 学 习 算 法 的 不 断 发 展 ， 收 集 更 多 数据 的 需求 也 在 与 日 俱 增 。 


以 前 ， 因 为 缺乏 划算 的 方式 来 存储 所 有 信息 ， 很 多 公司 会 忽略 某 
些 数 据 产 ， 但 是 现在 这 样 的 处 理 方 式 会 让 公司 形 失 竞争 力 。 存 储 和 分 
析 每 一 个 数据 点 的 需求 在 不 断 增长 ， 这 种 需求 的 增长 直接 导致 各 公司 
电子 商务 平台 产生 了 更 多 的 数据 。 


过 去 ， 唯 一 的 选择 束 是 将 收集 到 的 数据 删 减 后 保存 起 来 ， 例 如 只 
保留 最 近 N 天 的 数据 。 然 而 ， 这 种 方法 只 在 短期 内 可 行 ， 它 无 法 存储 
几 个 月 或 几 年 收集 到 的 所 有 数据 ， 因 此 建议 ， 构 建 一 种 数学 模型 覆盖 
整个 时 间 段 或 者 改进 一 个 算法 ， 重 跑 以 前 所 有 的 数据 ， 以 达到 更 好 的 


效果 


对 于 海量 数据 的 重要 性 ，Ralph Kimball 博 士 指出 2 : 


“数据 资产 会 取代 20 世 纪 传统 有 形 资产 的 地 位 ， 成 为 
资产 负债 表 的 重要 组 成 部 分 。* 


“数据 的 价值 已 经 超越 了 传统 企业 广泛 认同 的 价值 边 
界 。” 


Google 和 Amazon 是 认识 到 数据 价值 的 典 苑 ， 它 们 已 经 开始 开发 满 
足 自 己 业 务 需求 的 解决 方案 。 例 如 ，Google 在 一 系列 的 技术 出 版 物 中 
描述 了 基于 商业 硬件 的 可 扩展 的 存储 和 处 理 系 统 。 开 源 社 区 利用 
Google 的 这 些 思想 实现 了 开源 Hadoop 项 目的 两 个 模块 :HDFS 和 
MapReduce ° 


Hadoop 擅 长 存储 任意 的 、 半 结构 化 的 数据 ， 甚 至 是 非 结构 化 的 数 
据 ， 可 以 大 助 用 户 在 分 析 数据 的 时 候 决定 如 何 解释 这 些 数据 ， 同 样 允 
许 用 户 随时 更 改 数据 分 类 的 方式 ， 一 旦 用 户 更 新 了 算法 ， 只 需要 重新 
分 析 数据 。 


目前 Hadoop 几 乎 是 所 有 现 有 数据 库 系 统 的 一 种 补充 ， 它 给 用 户 提 
供 了 数据 存储 的 无 限 空间 ， 文 持 用 户 在 恰当 的 时 候 存储 和 获取 数据 ， 
并 且 和 针对 大 文件 的 存储 、 批 量 访 问 和 流 式 访问 做 了 优化 。 这 使 得 用 户 
对 数据 的 分 析 变 得 简单 快捷 ， 但 是 用 户 同样 需要 访问 分 析 后 的 最 终 数 
据 ， 这 种 需求 需要 的 不 是 批量 模式 而 是 随机 访问 模式 ， 这 种 模式 相对 
于 在 数据 库 系 统 来 说 ， 相 当 于 一 种 全 表 扫 摘 和 使 用 索引 。 

通 单 用户 在 随机 访问 结构 化 数据 的 时 候 都 会 得 询 数 据 库 。RDBMS 


在 这 方面 最 为 突出 ， 但 是 也 有 一 些 少量 的 有 差异 的 实现 方式 ， 比 如 面 
向 对 象 的 数据 库 。 大 多 数 RDBMS 一 直 遵 守 科 德 十 二 定律 (Codd’s 12 


rules) © ， 这 个 定律 对 于 RDBMS 来 说 是 刚性 标准 ， 并 且 由 于 RDBMS 
的 夺 层 架构 是 经 过 仔细 人 研究 的 ， 所 以 在 相当 长 的 一 段 时 间 里 这 种 架构 
都 不 会 有 明显 的 改变 。 近 年 来 出 现 的 各 种 处 理 方法 ， 如 列 式 存储 的 
(column-oriented) 数据 库 和 大 规模 并 行 处 理 (Massively Parallel 
Processing, MPP) 数据 库 ， 表 明 业 界 重 新 思考 了 技术 方案 以 满足 新 的 
工作 负载 ， 但 是 大 多 数 解决 方案 仍旧 是 基于 科 德 十 二 定律 来 实现 的 ， 
并 没有 打破 传统 的 法 则 。 


列 式 存储 数据 库 


列 式 存储 数据 库 以 列 为 单位 聚合 数据 ， 然 后 将 列 值 顺 
序 地 存 入 磁 强 ， 这 种 存储 方法 不 同 于 行 式 存储 的 传统 数据 
库 ， 行 式 存 储 数 据 库 连续 地 存储 整 行 。 图 1-1 形 象 地 展示 了 
列 式 存储 和 行 式 存储 的 不 同 物理 结构 。 


列 式 存储 的 出 现 主 要 基于 这 样 一 种 假设 : 对 于 特定 的 
查询 ， 不 是 所 有 的 值 都 是 必需 的 。 尤 其 是 在 分 析 型 数据 库 
里 ， 这 种 情形 很 常见 ， 因 此 需要 选择 一 种 更 为 合适 的 存储 
Hon 


在 这 种 新 型 的 设计 中 ， 减 少 WO 只 是 众多 主要 因素 之 
一 ， 它 还 有 其 他 的 优点 ， 因为 列 的 数据 类 型 天 生 是 相似 
的 ， 即 便 逻 辑 上 每 一 行 之 间 有 轻微 的 不 同 ， 但 仍旧 比 按 行 
存储 的 结构 聚集 在 一 起 的 数据 更 利于 压缩 ， 因 为 大 多 数 的 
压缩 算法 只 关注 有 限 的 压缩 窗口 。 


像 增 量 压 缩 或 前 组 压缩 这 类 的 专业 算法 ， 是 基于 列 存 
储 的 类 型 定制 的 ， 因 而 大 幅度 提高 了 压缩 比 。 更 好 的 压缩 
比 有 利于 在 返回 结 采 时 降低 市 宽 的 消耗 。 


Row) | 1 | http://hbase.apache.org <html><head><title>HBase Home</ti.. 
/arsgeorge. <html> <body>Newest Posts. . 
Row3 | 3 | http://foobar.com/index html <NULL> 404 Page not found. 
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图 1-1 列 式 存储 结构 与 行 式 存储 结构 


值得 注意 的 是 ， 从 典型 RDBMS 的 角度 来 看 ，HBase 并 不 是 一 个 列 
式 存 储 的 数据 库 ， 但 是 它 利 用 了 磁盘 上 的 列 存储 格式 ， 这 也 是 RDBMS 
与 HBase 最 大 的 相似 之 处 ， 因 为 HBase 以 列 式 存储 的 格式 在 磁 如 上 存储 
数据 。 但 它 与 传统 的 列 式 数据 库 有 很 大 的 不 同 : 传统 的 列 式 数 据 库 比 
较 适 合 实时 存 取 数 据 的 场景 ，HBase 比 较 适 合 键 值 对 的 数据 存 取 ， 或 者 
有 序 的 数据 存 取 。 


如 今 数 据 的 产生 速度 比 几 年 以 前 已 经 有 了 迅猛 的 增长 ， 随 着 全 球 
化 步伐 加 快 ， 这 个 增长 速度 只 会 越 来 越 迅 猛 ， 由 此 所 产生 的 数据 处 理 
问题 也 会 越 来 越 严峻 。 像 Google、Amazon、eBay 和 Facebook 这 样 网 站 
的 用 户 已 经 覆盖 到 了 地 球 上 的 绝 大 多 数 人 。 全 球 化 网 络 应 用 (planet- 


size web application) 的 概念 已 经 形成 ， 在 这 种 背景 下 ， 企 业 使 用 HBase 
ANTE O 
pie 


举例 来 说 ，Facebook 每 天 增 量 存 储 到 它们 Hadoop 集 群 的 数据 量 超 
过 15 TB ， 并 且 随 后 会 对 所 有 这 些 数 据 进 行 处 理 。 这 些 数 据 一 部 分 是 
点 击 洲 日 志 ， 用 户 点 击 了 它们 的 网 站 或 点 击 了 使 用 Facebook 提 供 的 社 
交 插 件 的 网 站 ， 每 一 步 点 击 操作 都 会 彼 记 杂 并 保存 ， 这 非常 适合 以 批 
处 理 的 模式 ， 为 预测 和 推荐 系统 构建 机 器 学 习 模 型 。 


Facebook 还 有 一 个 实时 组 件 ， 束 是 它们 的 消息 系统 ， 其 中 包括 聊 
天 、 涂 鸦 墙 和 电子 邮件 ， 每 个 月 会 产生 超过 1350 亿 条 数据 © ， 存 储 几 
个 月 之 后 便 会 产生 一 个 量 级 庞大 的 尾部 数据 ， 并 且 这 些 尾部 数据 需要 
被 有 效 地 处 理 。 尽 管 电子 邮件 中 占用 存储 量 较 大 的 部 分 〈 如 附件) 通 
常 存储 在 二 级 系统 中 ?， 但 这 些 消息 产生 的 数据 量 还 是 令 人 难以 置信 
的 。 以 Facebook 的 数据 产生 条 目 为 基础 ， 假 如 按 Twitter 中 的 每 条 数据 占 
用 140 字 贡 来 计算 ，EFacebook 每 个 月 将 会 产生 超过 17 TB 的 数据 ， 在 将 
这 些 数据 导入 到 HBase 之 前 ， 现 存 的 系统 每 个 月 也 要 处 理 超过 25 TB 的 
数据 。 

目前 在 少数 的 重点 行业 中 ， 面 癌 Web 业 务 的 公司 收集 的 数据 量 也 在 
不 断 增 长 。 


金融 
如 股票 涨 跌 产生 的 数据 。 
生物 信息 学 


如 全 球 生 物 多 样 性 信息 机 构 (Global Biodiversity Information 
Facility, http:/www.gbif.org/ ) 


智能 电网 
如 OpenPDC ( http://openpdc.codeplex.com/) MH ° 
销售 
如 销售 终端 (POS 机 ) 产生 的 数据 ， 或 者 是 股票 系统 、 库 存 系统 。 


基因 组 学 


如 Crossbow ( http://bowtie-bio.sourceforge.net/crossbow/index.shtml 
) 项 目 


移动 电话 服务 、 军 事 、 环 境 工程 
也 产生 了 海量 的 数据 。 


有 效 存储 PB 级 的 数据 并 能 高 效 地 检索 和 更 新 并 不 是 一 件 容易 的 事 
情 。 下 面 深入 探讨 一 下 我 们 将 面临 的 挑战 。 


1.2 关系 数据 库 系 统 的 问题 


RDBMS 在 设计 和 实现 商业 应 用 方面 扮演 了 一 个 不 可 或 缺 的 角色 
(至 少 在 可 预见 的 未 来 仍旧 如 此 ) 。 只 要 用 户 需 要 保留 用 户 、 产 品 、 
会 话 、 订 单 等 信息 ， 束 会 采用 一 些 存储 后 端 为 前 剖 应 用 服务 事 提 供 持 
和 久 化 数据 的 服务 。 这 种 结构 非常 适合 有 限 的 数据 量 ， 但 对 于 数据 急剧 
增长 的 情况 ， 这 种 结构 吏 显 得 力不从心 了 。 


以 我 们 之 前 提 到 的 HBase 短 网 址 (HBase URL Shortener) 服务 一 一 
Hush 为 例 。 假 设 要 构建 一 个 初始 束 能 支持 几 千 个 用 户 的 系统 ， 并 且 要 
廊 省 成 本 ， 换 句 话说 束 是 使 用 免费 软件 。 这 种 经 典 案 例 束 可 以 使 用 开 
源 的 LAMP © 快速 地 搭建 一 个 原型 。 


关系 数据 库 模 型 通过 用 外 键 关联 url 表 、shorturl 表 和 click 
表 ， 规 范 了 存 入 user 表 的 数据 。 其 中 这 些 数 据 表 都 有 索引 ， 可 以 保证 你 
既 能 通过 short ID 检索 到 URL， 又 能 通过 username 检索 到 用 户 。 
如 果 需 要 找 出 一 个 特定 用 户 列表 的 所 有 短 址 URL， 可 以 运行 一 个 SQL 
的 JOIN 语句 关联 这 两 张 表 ， 得 到 一 个 全 面 的 URL 表 ， 其 中 不 仅 包 括 短 
址 URL， 还 包括 所 需 的 用 户 明 细 。 


此 外 ， 还 可 以 利用 数据 库 内 置 的 功能 ， 如 存储 过 程 (stored 
procedure) 。 当 数据 系统 需要 始终 保证 多 张 表 的 数据 一 致 性 时 ， 可 以 
利用 存储 过 程 来 解决 多 个 客户 端 同 时 更 新 数据 的 一 致 性 问题 。 


事务 (transaction) 提供 了 原子 性 跨 表 更 新 数据 的 特性 ， 可 以 让 修 
改 同 时 可 见 或 同时 不 可 见 。RDBMS 提 供 了 所 请 的 ACID ”特性 ， 这 意 


味 着 用 户 数据 是 强 一 致 性 的 〈 在 稍 后 的 “一 致 性 模型 ”中 有 详细 介 
绍 ) 。 参 照 完 整 性 (referential integrity) 负责 约束 不 同 的 表 结 构 之 间 
的 关系 ， 利 用 特定 域 语 言 ， 即 SQL ， 能 够 写 出 任意 复杂 的 查询 语句 。 
最 终 ， 用 户 不 需要 关心 实际 上 数据 是 怎样 存储 的 ， 只 需要 关心 更 高 层 
问 模 型 。 


通常 这 种 模式 的 设计 能 在 较 长 的 一 段 时 间 里 满足 需求 。 如 有 果 足 够 
幸运 ， 你 可 能 会 成 为 下 一 个 互联 网 上 的 热点 ， 每 天 有 越 来 越 多 的 用 户 
加 入 你 的 网 站 。 但 随 着 你 网 站 用 户 数量 的 增加 ， 共 衬 数 据 库 服务 器 的 
压力 也 会 越 来 越 大 。 增 加 应 用 服务 絮 的 数量 相对 来 说 比较 容易 ， 因 为 
应 用 服务 器 之 间 是 共享 中 央 数 据 库 的 ， 但 随 着 共享 中 央 数 据 库 的 CPU 
和 WO 负载 的 上 升 ， 你 将 很 难 预测 你 能 承受 这 种 增 速度 多 久 。 


减少 压力 的 第 一 步 是 增加 用 于 并 行 读 取 的 从 服务 右 ， 将 读 写 分 
离 。 这 种 方案 傈 留 了 一 个 主 数据 库 服务 右 ， 但 是 这 个 主 数 据 库 服务 天 
现在 只 服务 于 写 请 求 ， 这 样 做 主要 是 考虑 到 网 站 的 请 求 主 要 由 用 户 济 
览 产生 ， 因 此 写 请 求 远 少 于 读 请 求 。 如 采 这 个 方案 也 因 用 户 数 的 持续 
增加 而 失败 了 ， 或 者 降低 了 系统 的 性 能 ， 双 该 上 怎么 办 呢 ? 


下 一 步 常见 的 做 法 是 增加 缓存 ， 如 Memcached ™ 。 现 在 可 以 将 读 
操作 接 入 到 高 速 的 在 内 存 中 缓存 数据 的 系统 中 ， 但 是 这 种 方案 无 法 保 
证 数据 一 致 性 ， 因 为 用 户 更 新 数据 到 数据 库 ， 而 数据 库 并 不 会 主动 更 
新 缓存 系统 中 的 数据 ， 所 以 需要 尽 可 能 快 地 同步 缓存 和 数据 库 视 图 ， 
把 更 新 缓存 数据 与 更 新 数据 库 数据 的 时 间 差 最 小 化 。 


里 然 这 种 方案 能 够 缓解 读 请 求 的 压力 ， 但 是 写 请 来 压力 的 增加 问 
古 还 是 没有 得 到 人 解决。 一旦 主 数据 库 服 务 胡 写 性 能 下 降 ， 可 以 把 主 服 
务 器 换 成 加 强 服务 器 ， 即 王 直 扩容 ， 让 加 强 服务 句 使 用 更 多 的 内 核 、 
更 多 的 内 存 、 更 快 的 磁盘 .….. 总 之 ， 与 初始 的 主 服 务 万 相 比 要 花费 更 
多 的 金钱 。 同 时 值得 注意 的 是 ， 用 户 如 果 已 经 选择 了 主 从 的 配置 方 
案 ， 束 必须 要 让 从 服务 占 的 性 能 与 主 服务 右 同 样 强 ， 否 则 从 服务 器 的 
en ee ee 
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伴随 着 网 站 受 欢 迎 程度 增加 ， 网 站 会 需要 增加 更 多 新 功能 ， 而 这 
些 新 功能 无 疑 都 会 转化 为 后 台数 据 库 的 查询 语句 。 以 前 顺利 执行 的 
SQL JOIN 语句 执行 突然 变 慢 了 ， 或 是 干脆 无 法 执行 ， 这 时 候 就 不 得 不 


采用 逆 范 式 化 存储 结构 。 如 果 情 况 越 来 越 糟 ， 台 不 得 不 停止 使 用 存储 
过 程 ， 因 为 存储 过 程 最 后 会 慢 得 无 法 执行 。 本 质 上 讲 ， 减 少数 据 库 中 
的 存储 数据 才能 优化 访问 。 


所 以 随 着 用 户 越 来 越 多 ， 人 负载 会 不 断 提高 ， 合 乎 逻辑 的 方式 就 古 
不 时 地 预 完 实现 最 昂 贯 的 查询 方案 ， 从 而 给 用 户 提 供 更 快 的 数据 服 
务 。 最 终 ， 不 得 不 放弃 辅助 索引 的 使 用 ， 原 因 融 是 数据 量 增 大 的 同 
时 ， 索 引 量 也 大 到 了 足以 让 数据 库 的 性 能 直线 下 降 。 最 后 所 能 提供 的 
查询 模式 只 剩 下 了 按照 主键 得 询 。 


这 时 该 怎么 办 ? 如 采 负 载 在 未 来 的 儿 个 月 里 预期 会 增加 一 个 数量 
级 或 更 多 又 该 怎么 办 ? 此 时 用 户 可 以 考虑 将 数据 分 区 (sharding) 到 多 
个 数据 库 中 ， 但 是 采用 此 方案 会 使 运 维 操作 变 成 垩 梦 ， 而 且 代 价 非常 
兄 贯 ， 因 此 也 不 是 最 合理 的 解决 方案 。 但 从 本 质 来 讲 ， 采 用 RDBMS 也 
征 因 为 没有 其 他 可 以 选择 的 方案 。 


分 区 


分 区 (sharding) 主要 描述 了 逻辑 上 水 平 划分 数据 的 
方案 。 这 个 方案 的 特点 是 将 数据 分 文件 或 分 服务 器 存储 ， 
而 不 是 连续 存储 。 


数据 的 分 区 是 在 固定 范围 内 实施 的 ， 在 传 入 数据 之 
前 ， 必 须 提 前 划分 好 数据 的 存储 围 ， 如 果 一 个 水 平 划分 
的 压力 超过 其 所 能 提供 的 容量 ， 玖 需要 将 数据 重 分 区 
(reshard) 并 迁移 数据 。 


重 分 区 并 迁移 数据 是 非常 消耗 资源 的 操作 ， 等 同 于 数 
据 重 做 。 需 要 重新 划分 边界 然后 横向 拆 分 (split) 。 大 规 
模 的 复制 操作 会 消耗 大 量 的 VO 资源 ， 同 时 还 会 临时 性 地 增 
加 存储 需求 。 在 对 数据 重 分 区 的 过 程 中 ， 客 户 端 应 用 仍然 


会 有 更 新 操 作 要 执行 ， 不 过 此 时 的 更 狐 操 作 受 重 分 区 的 影 
啊 会 执行 得 非常 慢 。 


可 以 采用 虚拟 分 区 (virtual shard) 的 方式 来 减少 这 种 
资源 消耗 ， 虚 拟 分 区 按照 关键 词 定 义 范 围 较 大 的 数据 分 
区 ， 每 个 服务 器 加 载 同等 数量 的 数据 分 区 。 但 是 在 新 增 服 
务 器 的 时 候 ， 需 要 重新 加 载 数据 分 区 到 新 服务 器 ， 并 且 这 
个 过 程 仍旧 需要 将 数据 迁移 到 新 服务 器 。 


分 区 是 简单 的 完全 脱离 用 户 操 作 的 事后 操作 ， 如 采 没 
有 数据 库 的 支持 ， 可 能 会 对 生产 系统 造成 严重 破坏 。 


对 于 关系 数据 库 系统 的 问题 瓯 讲 到 这 里 ， 客 观 地 讲 ，RDBMS 已 经 
在 大 量 的 公司 里 使 用 ， 并 形成 了 较 大 规模 的 技术 体系 。 例 如 ， 
Facebook、Google 都 已 经 大 规模 地 使 用 了 MySQL， 因 为 MySQL 的 安装 
和 使 用 都 已 经 非常 简洁， 相关 的 参考 资料 和 泡 例 也 非常 充分 。 这 个 数 
据 库 适合 特定 场景 的 业务 ， 并 且 短 期 内 不 会 被 取代 。 这 里 有 个 问题 
是 : 如 采 你 想 开 发 一 个 新 产品 ， 并 且 在 设计 阶段 就 已 经 预料 到 系统 拓 
展 速 度 非常 快 ， 那 么 ， 你 是 希望 所 有 的 功能 都 可 用 ， 还 是 使 用 某 些 有 
一 定制 约 的 功能 ? 


1.3” 非 关系 型 数据 库 系 统 Not-Only-SQL (简称 
NoSQL) 


过 去 的 四 五 年 时 间 里 ， 为 了 解决 问题 ， 创 新 的 前 进步 伐 由 缓慢 变 
得 出 奇 得 快 ， 好 像 每 周 都 会 发 布 新 的 框架 和 项 目 来 满足 需求 。 我 们 看 
到 了 上 所谓 的 NoSQL 解 决 方案 问世 了 ，NoSQL 是 Eric Evans 针 对 Johan 
的 “为 新 兴 的 新 数据 存储 空间 © 命名 ”问题 而 创造 的 一 个 
名词 o 


正 是 因为 这 类 新 产品 还 没有 合 运 的 名 称 ，NoSQL 一 举 成 名 。 在 激 
烈 的 讨论 中 ， 它 被 认为 是 “SQL” 的 克星 _， 或 者 说 ， 它 给 仍旧 考虑 使 用 
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”实际 上 ， 为 特定 的 问题 制定 差异 化 的 专用 解决 方案 
的 想法 并 不 新 鲜 。 像 Berkeley DB、Coherence、GTM 这 样 的 
系统 ， 以 及 面向 对 象 的 数据 库 系统 都 已 经 出 现 了 好 多 年 ， 有 
些 甚至 都 可 以 追溯 到 20 世 纪 80 年 代 初 ， 从 定义 上 来 看 ， 它 们 
都 属于 NoSQL 。 


标示 符号 化 (tagword) 实际 上 是 一 个 不 错 的 选择 : 最 新 的 存储 系 
统 不 提供 通过 SQL 查 询 数 据 的 手段 ， 只 提供 一 些 比较 简单 的 、 类 似 于 
API 接 口 的 方式 来 存 取 数据 。 


但 是 ， 也 有 一 些 工 具 为 NoSQL 数 据 存 储 提供 了 SQL 语 言 的 入 口 ， 
用 于 执行 一 些 关 系数 据 库 中 常用 的 复杂 条 件 查 询 。 因 此 ， 从 查询 方式 
上 的 限制 来 说 ， 关 系 型 数据 库 和 非 关 系 型 数据 库 并 没有 严格 的 区 分 。 


实际 上 两 着 在 接 屋 上 是 有 区 别 的 ， 尤 其 涉及 到 模式 或 着 ACID 事 务 
特性 时， 因为 这 与 实际 的 存储 染 构 是 相关 的 。 很 多 这 一 类 的 新 系统 站 
先 做 的 事情 是 : 抛弃 一 些 限 制 因素 以 提升 扩展 性 (这 一 点 会 在 1.3.1 市 
讨论 ) 。 例 如 ， 它 们 通常 不 支持 事务 或 辅助 索引 。 更 重要 的 是 ， 这 一 
类 系统 十 没有 固定 模式 的 ， 可 以 随 看 应 用 的 改变 而 灵活 变化 。 


一 致 性 模型 
在 这 本 书 里 ， 我 们 经 常会 提 到 一 任性 问题 ， 所 以 有 必 
要 在 这 里 对 它 稍 加 介绍 。 一 开始 的 一 致 性 是 保证 数据 库 客 
户 端 操 作 的 正确 性 ， 数 据 库 必须 保证 每 一 步 操作 都 是 从 一 


个 一 致 的 状态 到 下 一 个 一 致 的 状态 。 系 统 没 有 明确 地 指定 
如 何 实 现 这 个 功能 ， 以 便 系 统 可 以 有 多 种 选择 。 最 终 ， 系 
SE 
致 的 状态 ， 从 而 保证 一 致 性 。 


一 致 性 可 以 按照 严格 程度 由 强 到 弱 分 类 ， 或 者 是 按照 
对 客户 端的 保证 程度 分 类 ， 下 面 是 一 个 非 正 式 的 分 类 列 
表 。 


严格 一 致 性 ， 数据 的 变化 是 原子 的 ， 一 经 改变 即时 生 
效 ， 这 是 一 致 性 的 最 高 形式 。 


行 的 顺序 而 变化 。 


个 客户 端 看 到 的 数据 依照 它们 操作 执 
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因果 一 致 性 : 客户 端 以 因果 关系 顺序 观察 到 数据 的 改 


变 


最 终 一 致 性 : 在 没有 更 新 数据 的 一 段 时 间 里 ， 系 统 将 
通过 广播 剑 证 副本 之 间 的 数据 一 致 性 。 


弱 一 致 性 : 没有 做 出 保证 的 情况 下 ， 所 有 的 更 新 会 通 
过 广播 的 形式 传递 ， 展 现 给 不 同 客户 端的 数据 顺序 可 能 不 
一 样 o 


采用 最 终 一 致 性 策略 的 系统 还 可 以 细 分 为 儿 个 子 类 ， 
并 且 这 些 子 策略 还 可 以 共存 。 亚 马 示 的 首席 技术 官 Werner 
Vogels 在 一 篇 名 为 “Eventually Consistent” 的 文章 中 列举 了 
这 几 个 子 类 。 这 篇 文章 还 谈 到 了 CAP 定 理 (CAP 
theorem) ， 其 中 指出 ， 一 个 分 布 式 系统 只 能 同时 实现 
一 致 性 、 可 用 性 和 分 区 容忍 性 (或 分 区 容错 性 ) 中 的 两 


A o CAPEREA, MYENEK PAAR 
唯一 方法 ， 但 CAP 定 理 指 出 了 ， 开 发 一 套 同时 满足 以 上 需 
求 的 分 布 式 系统 是 比较 困难 的 。 例 如 ，Vogels 提 到 |: 


“在 一 系列 的 研究 结 米 里 发 现 ， 在 较 大 型 
的 分 布 式 系统 中 ， 由 于 网 络 分 隅 ,一致 性 与 
可 用 性 不 能 同时 满足 。 这 意味 着 三 个 要 素 最 
多 只 能 同时 实现 两 个 ,不 可 能 三 着 兼顾 ， 放 
DE 3 a aT a 
升 一 致 性 意味 着 系统 需要 牺牲 一 定 的 可 用 
Jee o 


放宽 一 致 性 来 提高 系统 可 用 性 是 一 个 非常 有 效 的 提 
议 。 不 过 这 种 方案 会 强制 让 应 用 层 去 解决 一 致 性 的 问题 ， 
因此 也 会 增加 系统 的 复杂 度 。 


各 种 非 关 系 型 数据 库 有 许多 共同 的 特性 ， 同 时 这 其 中 的 许多 特性 
与 传统 的 存储 方案 也 有 很 多 共同 点 。 因 此 新 系统 并 不 是 革命 性 的 产 
品 ， 从 工程 的 角度 来 看 更 像 是 产品 的 进化 。 

假使 过 Memcached 这 样 的 项 目 都 划 入 到 NoSQL 范 畴 的 话 ， 那 惑 成 
了 只 要 不 是 RDBMS 就 可 以 认为 是 NoSQL。 这 个 说 法 导致 了 错误 的 二 分 
法 ， 二 分 法 掩 着 了 这 些 系统 提供 的 令 人 振 理 的 技术 可 行 性 。 在 NoSQL 
范畴 内 ， 还 有 很 多 的 维度 可 以 区 分 系统 的 特定 优势 所 在 。 


1.3.1 维度 


让 我 们 来 挑 几 种 维度 简单 介绍 一 下 。 需 要 注意 的 是 ， 列 举 的 这 些 
维度 并 不 全 面 ， 并 且 这 也 不 是 唯一 的 区 分 方式 。 


数据 模型 


数据 有 多 种 存储 的 方式 ， 包 括 键 / 值 对 (类 似 于 HashMap) 、 半 结 
构 化 的 列 式 存储 和 文档 结构 存储 。 用 户 的 应 用 如 何 存 取 数 据 ? 同时 数 
据 模式 钙 否 随 着 时 间 而 变化 ? 


存储 模型 


内 存 还 是 持久 化 ? 坦率 来 说 做 出 这 个 决定 并 不 难 ， 其 主要 原因 
和 是， 我 们 可 以 将 其 与 RDBMS 进 行 对 比 ， 它 们 通 各 持久 化 存储 数据 到 厂 
盘 中 。 即 使 需要 的 是 纯粹 的 内 存 模式 ， 也 仍 日 有 其 他 方案 。 一 旦 考虑 
持久 化 存储 ， 束 需要 考虑 选择 的 方案 是 否 会 影响 到 访问 模式 ? 


一 致 性 模型 


产 格 一 致 性 还 是 最 终 一 致 性 ? 问题 是 存储 系统 如 何 实现 它 的 目 
标 : 必须 降低 一 致 性 有 要求 吗 ? 虽然 这 种 问题 很 粗浅 ， 但 是 在 特定 的 场 
景 中 会 产生 巨大 影响 。 因 为 一 致 性 可 能 会 影响 操作 延 时 ， 即 系统 啊 应 
读 写 请 求 的 速度 。 这 需要 权衡 投入 和 产 出 后 得 到 一 个 折 中 结果 。 © 


物理 模型 


分 布 式 模式 还 旦 单机 模式 ? 这 种 架构 看 起 来 像 什么 ? 是 仅仅 运行 
在 单个 机 和 右上， 还 是 分 布 在 多 台 机 右上 ， 但 分 布 及 扩展 规则 由 客 刻 站 
管理 ， 换 句 话 说， 由 用 户 自 己 的 代码 管理 ? 也 许 分 布 式 模式 仅仅 是 个 
事后 的 工作 ， 并 且 只 会 在 用 户 需要 扩展 系统 时 产生 问题 。 如 有 果 系 统 提 
供 了 一 定 的 扩展 性 ， 那 么 需要 用 户 采 取 特 定 的 操作 吗 ? 最 简单 的 解决 
方案 就 是 一 次 增加 一 台 机 器 ， 并 且 设 置 好 分 区 (这 点 对 于 不 文 持 虚拟 
分 区 的 系统 非常 重要 ) ， 设 置 时 需要 考虑 同时 提高 每 个 分 区 的 处 理 能 
力 ， 因 为 系统 的 每 个 部 分 都 需要 提供 均衡 的 性 能 。 


读 / 写 性 能 


用 户 必须 了 解 自己 的 应 用 程序 的 访问 模式 。 有 是 读 多 写 少 ? 还 是 读 
写 相 当 ? 或 者 是 写 多 读 少 ? 十 用 旋 围 扫 插 数据 好 ， 还 是 用 随机 读 请 来 


数据 更 好 ? 有 些 系 统 仅 仅 对 这 些 情况 中 的 一 种 文 持 得 非常 好 ， 有 些 系 
统 则 对 各 种 情况 部 提供 了 很 好 的 文 持 。 


辅助 索引 


辅助 索引 文 持 用 户 按 不 同 的 字段 和 排序 方式 来 访问 表 。 这 个 维度 
窗 盖 了 某 些 完全 没有 辅助 索引 文 持 且 不 保证 数据 排序 的 系统 类似 于 
HashMap， 即 用 户 需 要 知道 数据 对 应 键 的 值 ) ， 到 某 些 可 能 通过 外 部 
手段 简单 文 持 这 些 功能 的 系统 。 如 采 存 储 系统 不 提供 这 项 功能 ， 用 户 
的 应 用 可 以 应 对 或 目 己 模拟 辅助 索引 吗 ? 


故障 处 理 


机 器 会 朋 溃 是 一 个 客观 存在 的 问题 ， 需 要 有 一 套数 据 迁 移 方案 来 
应 对 这 种 情况 〈 关 于 这 一 点 可 以 参考 在 “一 致 性 模型 ”中 讨论 的 CAP 定 
H) 。 每 个 数据 存储 如 何 进 行 服务 器 故障 处 理 ? 故障 处 理 完毕 之 后 是 
否 可 以 正常 工作 ? 这 与 之 前 讨论 的 “一 致 性 模型 > 维度 有 关系 ， 因 为 失 
去 一 台 服 务 器 可 能 会 造成 数据 存储 的 空洞 (hole) ， 甚 至 使 整个 数据 存 
储 不 可 用 。 如 果 替 换 掉 故障 服务 器 ， 那 么 恢复 100% 服 务 的 难度 有 多 
人 0 ae ener renee 
问题 © 


Fe 

当 用 户 需要 存储 TB 级 的 数据 时 ， 尤 其 当 这 些 数据 差异 性 很 小 或 由 
可 读 性 文本 组 成 时 ， 压 缩 会 市 来 非常 好 的 效 末 ， 即 能 世 省 大 量 的 原始 
数据 存储 。 有 些 压缩 算法 可 以 将 此 类 的 数据 压缩 到 原始 文件 大 小 的 十 
分 之 一 。 有 可 选择 的 压缩 组 件 吗 ? 又 有 哪些 压缩 算法 可 用 ? 
负载 均衡 

假如 用 户 有 高 读 写 吞吐 率 的 需求 ， 就 要 考虑 配置 一 套 能 够 随 着 人 负 
载 变 化 目 动 均 衡 处 理 能 力 的 系统 。 虽 然 这 样 不 能 完全 解决 该 问题 ， 但 
征 也 可 以 帮助 用 户 设计 高 读 写 吞吐 量 的 程序 。 
原子 操作 的 读 -修改 - 写 


RDBMS 提 供 了 很 多 这 类 的 操作 (因为 它 是 一 个 集中 式 的 面向 单 服 
务 器 的 系统 ) ， 但 这 些 操作 在 分 布 式 系统 中 较 难 实现 ， 这 些 操作 可 以 


帮助 用 户 避 人 免 多 线程 造成 的 资源 竞争 ， 也 可 以 帮助 用 户 完 成 无 共享 应 
用 服务 器 的 设计 。 有 了 这 些 比 较 并 交换 (compare and swap，CAS) 操 
作 ， 或 者 说 检查 并 设置 (check and set) 操作 ， 在 设计 系统 的 时 候 可 以 
有 效 地 降低 客户 端的 复杂 度 。 
加 锁 、 等 待 和 死 锁 

众所周知 ， 复 杂 的 事务 处 理 ， 如 两 阶段 提交 ， 会 增加 多 个 客户 端 
竞争 同一 个 资源 的 可 能 性 。 最 糟糕 的 情况 驶 是 死 锁 ， 这 种 情况 也 很 难 
和 
待 和 死 锁 ? 


ed. 
一 一 稍 后 我 们 会 回顾 这 些 维度 ， 看 看 HBase 适 合用 在 哪 
里 ， 其 优势 何在 。 现 在 需要 指出 的 是 ， 一 定 要 根据 实际 的 需 
求 来 仔细 选择 最 适合 的 维度 。 按 照 实际 情况 来 设计 解决 方 

案 ， 要 知道 没有 硬性 规定 说 ，RDBMS 不 能 很 好 地 解决 的 问 
题 ，NoSQL 就 能 完美 解决 。 重 要 的 是 正确 地 评估 需求 ， 然 后 
再 做 出 明智 的 选择 ， 有 需要 的 话 甚至 可 以 采用 混合 使 用 的 方 


案 。 


可 以 用 一 个 有 趣 的 词 来 形容 这 个 情况 一 一 阻抗 匹配 
(impedance match) ， 意 思 就 是 要 为 一 个 给 定 问题 找到 一 个 
理想 的 解决 方案 ， 除 了 使 用 通用 的 解决 方案 ， 还 应 该 知道 有 
什么 可 用 的 解决 方案 ， 从 而 找到 最 适合 于 解决 该 问题 的 系 


统 。 


1.3.2 ”可 扩展 性 


RDBMS 非 常 适合 事务 性 操作 ， 但 不 见长 于 超大 规模 的 数据 分 析 处 
理 ， 因 为 超大 规模 的 查询 需要 进行 大 范围 的 数据 记录 扫描 或 全 表 扫 
摘 。 分 析 型 数据 库 可 以 存储 数 百 或 数 千 TB 的 数据 ， 在 一 合 服务 右上 做 
查询 工 作 的 啊 应 时 间 ， 会 远 远 超 过 用 户 可 接受 的 合理 啊 应 时 间 。 垂 直 
扩展 服务 夯 性 能 ， 即 增加 CPU 核 数 和 磁盘 数目 ， 也 并 不 能 很 好 地 解决 


该 问题 。 


更 糟 料 的 是 ，RDBMS 的 等 每 和 死 锁 的 出 现 频率 ， 与 事务 和 并 发 的 
增加 并 不 古 线性 关系， 准确 地 说 ,与 并 发 数目 的 平方 以 及 事务 规模 的 3 
次 方 甚至 5 次 方 相关 中。 分 区 通常 是 一 个 不 切合 实际 的 解决 方案 ， 因 为 
它 需 要 客户 端 采 用 非常 复杂 的 方式 和 较 高 的 代价 来 维护 分 区 信息 。 


一 些 商业 RDBMS 也 解决 过 类 似 的 问题 ， 但 它们 往往 只 是 特定 地 解 
决 了 问题 的 某 几 个 方面 ， 更 重要 的 是 ， 它 们 非常 非 第 的 昂 贯 。 而 一 些 
开源 的 RDBMS 解 决 方案 中 ， 往 往 放弃 了 其 中 的 一 些 甚至 全 部 的 天 系 型 
特性 ， 如 辅助 索引 ， 来 换取 更 高 的 性 能 拓展 能 


问题 是 ， 为 了 性 能 而 一 直 放 痉 以 上 关系 型 特性 是 否 值得 ? 用 户 可 
以 反 范 式 化 〈 见 1.3.3 节 ) 数据 模型 来 避免 等 待 ， 并 且 可 以 通过 降低 锁 
粒度 的 方式 来 尽量 避免 死 锁 。 数 据 增 长 时 ， 无 需 重新 分 区 迁移 数据 并 
内 磐 水平 扩 展 性 的 方法 。 最 后 ， 用 户 还 要 面 对 容 错 和 效 据 可 用 性 问 
题 ， 采 用 提高 扩展 性 的 机 制 ， 用 户 最 终 会 得 到 一 个 NoSQL 的 解决 方 
案 ， 更 确切 地 说 ，HBase 可 以 满足 以 上 多 种 需求 。 


1.3.3 数据库 的 范式 化 和 反 范 式 化 


不 同 的 规模 ， 经 常 需要 设计 不 同 的 系统 结构 ， 对 这 种 原则 的 最 佳 
five: 有 反 范 式 化 、 复 制 和 智能 的 主键 (Denormalization, Duplication, 
and Intelligent Keys， 人 简称 DDI” )。 这 就 需要 重新 思考 在 类 似 BigTable 
的 存储 系统 中 如 何 才 能 高 效 合 理 地 存储 数据 。 


部 分 原则 是 采用 反 施 式 化 模式 ， 例 如 将 数据 复制 到 多 张 表 中 ， 这 
样 在 读 取 的 时 候 束 不 需 从 多 张 表 中 聚合 数据 了 。 或 者 预先 物化 所 需 的 
视图 ， 一 次 优化 从 而 避免 进一步 的 处 理 来 提高 读 取 性 能 。 


这 一 主题 在 第 9 革 里 有 更 详细 的 介绍 ， 主 要 阐述 了 如 何 充分 利用 
HBase 的 特性 去 解决 实际 问题 。 让 我 们 来 看 一 个 例子 ， 理 解 传统 的 关系 
数据 库 模型 转 到 列 式 存 储 的 HBase 的 几 点 基本 原则 o 


再 来 看 看 HBase 短 网 址 ， 即 Hush，Hush 人 允许 用 户 将 长 网 址 映射 为 
短 网 址 (short URL) ， 见 图 1-2 表 示 的 实体 关系 图 (entity relationship 
ale ERD， 简 称 ER 图 ) 。 在 附录 E 中 可 以 查看 完整 的 SQL 模 
式 。 


eK id 


IDX | username FK1 | userld 
credentials 
roles 
firstname url dimension 
lastname refShortld counter 
email title 


description 
content 


图 1-2 ”Hush 模 式 的 实体 关系 图 


短 网 址 存储 在 shorturl 表 中 ， 用 户 可 以 总 击 短 网 址 来 链接 到 完 
整 网 址 。 系 统 会 跟踪 每 次 点 击 ， 记 采 该 网 址 的 使 用 次 数 ， 还 会 记录 一 
些 其 他 信息 ， 例 如 ， 扩 击 该 链接 的 用 户 所 在 的 国家 。 这 些 信息 会 记录 
anaes HP, SRA ARERR — ir aes, DR Serr Be 
天 的 访问 量 。 


用 户 信息 存储 在 user 表 中 ， 用 户 可 以 在 Hush 网 站 上 注册 并 创建 个 
人 短 网 址 列表 ， 同 时 也 可 以 在 此 网 站 上 增加 描述 。user 表 与 
shorturl 表 之 间 维 护 了 一 个 外 键 关系 。 


系统 还 会 在 后 侣 下载 链接 到 的 页 面 ， 并 提取 一 些 TITLE 之 类 的 
HTML 标签。 将 整个 页 面 保存 下 来 的 目的 是 ， 供 后 续 的 异步 任务 进行 处 
理 和 分 析 。 这 些 内 容 都 由 ur1l 表 存 储 。 


每 个 链接 页 面 只 存储 一 份 ， 不 过 ， 由 于 许多 用 户 可 能 会 链接 同一 
个 长 网 址 ， 并 且 还 想 保存 他 们 自己 的 详细 人 信息， 例如， 使 用 统计 信 
息 ， 因 此 会 在 短 链接 表 中 创建 多 个 项 来 加 以 区 分 。 通 过 这 上 段 逻辑 ， 将 
url 表 、shorturl 表 和 click 表 关 联 在 了 一 起 。 


这 使 得 通过 统计 原始 的 短 网 址 标识 refShortId ， 就 可 以 统计 任 
意 一 个 短 网 址 映射 到 同一 个 长 网 址 的 使 用 率 。shortId 和 


refShortid 利用 散 列 ID 的 方式 被 唯一 地 分 配给 了 短 网 址 。 例 如 : 


http://hush.1i/a23eg 


在 上 述 地 址 中 ， 散 列 ID 是 a23eg 。 


图 1-3 展 现 了 Hush 应 用 在 HBase 中 的 对 应 模式 。 每 个 短 网 址 都 存储 
在 独立 的 表 shorturl 中 ， 表 中 还 包含 了 使 用 统计 信息 ， 按 统计 时 间 
范围 不 同 ， 存 放 于 不 同 的 列 族 中 ， 同 时 每 个 值 都 有 其 生存 期 〈time-to- 
live) 。 列 名 是 日 期 和 一 个 可 选 维度 后 绥 的 组 合 ， 例 如 国家 代码 ， 列 值 
则 是 对 应 计数 器 的 值 。 


下 载 下 来 的 页 面 和 提取 的 详细 信息 存储 在 ur1 表 中 ， 并 且 要 通过 
压缩 最 大 限度 地 减少 存储 量 ， 因 为 存储 的 页 面 主要 是 HTML ， 这 种 格式 
本 身 风 余 量 大 ， 并 且 包含 了 大 量 文 本 。 


Table: url 


ws 


data: 一 
Family: [compressed] Columns; refShortid, title, description 
content: cae 
[compressed] olumns: raw 


Table: user-shorturl 


username\x00shortld 
ir | 


Table: user 


Family: aa Columns: credentials, roles, firstname, lastname, email 


图 1-3 HBase 中 的 Hush 模 式 


系统 通过 user -shorturl 表 可 以 快速 查 到 指定 用 户 的 所 有 短 网 
址 标识 。 这 个 功能 被 用 在 用 户主 页 中 ， 只 要 用 户 一 登录 就 会 被 记录 下 
Ke user 表 存 储 着 实际 用 户 的 详细 信息 。 


虽然 表 的 数量 相同 ， 都 是 4 个 ， 但 表 的 含义 发 生 了 变化 : clicks 
表 被 合并 到 了 shortur1L 表 中 ， 统 计 列 使 用 日 期 为 列 键 ， 格 式 为 
YYYYMMDD， 例 如 ，20110502， 这 样 用 户 可 以 顺序 访问 数据 。 新 增 
人 表 人 代替 了 外 键 ， 使 查询 用 户 相 关 信 息 变 得 更 为 快 


有 非常 多 的 方法 来 转换 一 对 一 、 一 对 多 、 多 对 多 的 关系 ， 以 适应 
HBase 的 底层 架构 。 这 种 简单 的 例子 有 多 种 实现 方式 ， 用 户 需 要 充分 理 
解 HBase 存 储 设计 的 潮 在 能 力 ， 然 后 深思 熟 虑 地 决定 用 哪 一 种 实现 方 


起 


对 稀 朴 和 矩阵、 宽 表 、 列 式 存储 的 文 持 使 得 数据 在 存储 的 时 候 无 需 
范式 化 ， 同 时 也 可 以 避免 查询 时 采用 开销 很 大 的 JOIN 操作 聚合 数据 。 
使 用 智能 的 主键 可 以 控制 数据 怎样 去 存储 以 及 存储 在 什么 位 置 。 由 于 
可 以 使 用 行 键 的 部 分 内 容 进 行 范 围 检 索 ， 行 键 作 为 组 合 键 设计 时 ， 与 
字典 序 左 部 分 为 头 的 索引 效果 相似 。 因 此 ， 正 确 的 设计 能 够 使 性 能 不 
会 因为 数据 增长 而 下 降 ， 例 如 当 数 据 条 目 从 10 条 增加 到 1000 万 条 时 ， 
系统 仍旧 可 以 保持 相同 的 读 写 性 能 。 


1.4 结构 


本 下 首先 介绍 HBase 的 以 构 ， 然 后 介绍 一 些 天 于 HBase 起 源 的 表 景 
人 质料， 之 后 将 介绍 其 数据 模型 的 一 般 概 念 和 可 用 的 存储 API， 最 后 在 一 
个 更 高 的 层次 上 对 其 实现 细 市 进行 分 析 。 


141 背景 


2003 年 ，Google 发 表 了 一 篇 论文 ， 叫 “The Google File System” ( 
http://labs.google.com/papers/gfs.html ) 。 这 个 分 布 式 文件 系统 简称 
GFS， 它 使 用 商用 硬件 集群 存储 海量 数据 。 文 件 系统 将 数据 在 方 点 之 间 
见 余 复制 ， 这 样 的 话 ， 即 使 一 台 存 储 服 务 器 发 生 故 障 ， 也 不 会 影响 数 
据 的 可 用 性 。 它 对 数据 的 流 式 读 取 也 做 了 优化 ， 可 以 边 处 理 边 读 取 。 


不 信 ，Google 又 发 表 了 另外 一 篇 论文 ， 叫 “MapReduce: Simplified 
Data Processing on Large Clusters”, 2 Jl 
http:/Nabs.google.com/paper/mapreduce.html 。MapReduce 是 GFS 架 构 的 
一 个 补充 ， 因 为 它 能 够 充分 利用 GFS 集 群 中 的 每 个 商用 服务 器 提供 的 大 
量 CPU。MapReduce 加 上 GFS 形 成 了 处 理 海量 数据 的 核心 力量 ， 包 括 构 
建 Google 的 搜索 索引 。 


不 过 以 上 描述 的 两 个 系统 都 缺乏 实时 随机 存 取 数 据 的 能 力 (意味 
着 尚 不 足以 处 理 Web 服 务 ) 。GFS 的 另 一 个 缺陷 就 是 ， 它 适合 存储 少许 
非常 非常 大 的 文件 ， 而 不 适合 存储 成 千 上 万 的 小 文件 ， 因 为 文件 的 元 
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因此 ，Google 党 试 去 找到 一 个 能 够 驱动 交互 应 用 的 解决 方案 ， 例 
如 ，Google 邮 件 或 者 Google 分 析 ， 能 够 同时 利用 这 种 基础 结构 、 依 靠 
GFS 存 储 的 数据 见 余 和 数据 可 用 性 较 强 的 特点 。 存 储 的 数据 应 该 拆 分 成 
特别 小 的 条 目 ， 然 后 由 系统 将 这 些小 记录 聚合 到 非常 大 的 存储 文件 
中 ， 并 提供 一 些 索 引 排序 ， 让 用 户 可 以 查找 最 少 的 磁盘 就 能 够 获取 数 
它 应 该 能 够 及 时 存储 息 虫 的 结果 ， 并 跟 MapReduce 协 作 构 建 


意识 到 RDBMS 在 大 规模 处 理 中 的 缺点 (8.1 节 会 针对 这 一 点 进行 深 
入 讨论 ) ， 工 程 师 们 开始 考虑 问题 的 其 他 切入 点 : 握 弃 关系 型 的 特 
点 ， 采 用 简单 的 API 来 进行 增 、 查 、 改 、 删 (Create, Read, Update, and 
Delete， 简 称 CRUD) 操作 ， 再 加 一 个 扫描 函数 ， 在 较 大 的 键 范 围 或 全 
表 范 围 上 迭代 扫描 。 这 些 努 力 的 成 果 最 终 在 2006 年 的 论文 “BigTable: A 
Distributed Storage System for Structured Data” 中 发 表 了 。 


“BigTable 是 一 个 管理 结构 化 数据 的 分 布 式 存 储 系统 ， 
它 可 以 扩展 到 非常 大 ， 如 在 成 干 上 万 的 商用 服务 器 上 存储 
PB 级 的 数据 。..….. 一 个 稀 玖 的 、 分 布 式 的 、 持 久 的 多 维 排 
FrBREY © ” 


强烈 建议 对 HBase 感 兴趣 的 人 去 阅读 这 篇 论文 ， 它 介绍 了 很 多 
BigTable 的 设计 原理 ， 用 户 最 终 都 能 在 HBase 中 找到 BigTable 的 影子 。 
我 们 会 借用 这 篇 论文 的 基本 概念 来 贯穿 我 们 的 这 本 书 。 


HBase 实 现 了 BigTable 存 储 架构 ， 因 此 我 们 也 可 以 用 HBase 来 解释 
每 样 东西 。 附 录 F 介 绍 了 两 者 之 间 的 不 同 。 


1.4.2 表 、 行 、 列 和 单元 格 


首先 ， 做 一 个 简要 总 结 : 最 基本 的 单位 是 列 (column) 。 一 列 或 
多 列 形成 一 行 (row) ， 并 由 唯一 的 行 键 (row key) 来 确定 存储 。 反 
过 来 ， 一 个 表 (table) 中 有 若干 行 ， 其 中 每 列 可 能 有 多 个 版 本 ， 在 每 
一 个 单元 格 (cell) 中 存储 了 不 同 的 值 。 


除了 每 个 单元 格 可 以 保留 奉 干 个 版 本 的 数据 这 一 点 ， 人 整个 结构 看 
起 来 像 典型 的 数据 库 的 描述 ， 但 很 明显 有 比 这 更 重要 的 因素 。 


所 有 的 行 按照 行 键 字典 序 进 行 排序 存储 。 例 1.1 展 现 了 如 何 通过 不 
同 的 行 键 增加 多 行 数据 。 


例 1.1 行 序 是 按照 行 键 的 字典 序 进行 排序 的 


hbase(main):001:0> scan 'table1' 
COLUMN+CELL 
column=cf1i:, timestamp=1297073325971 
column=cf1i:, timestamp=1297073337383 
column=cf1:, timestamp=1297073340493 
column=cf1i:, timestamp=1297073329851 
column=cf1:, timestamp=1297073344482 


column=cf1i:, timestamp=1297073333504 


column=cf1:, timestamp=1297073349875 


7 row(s) in 0.1100 seconds 


注意 ， 排 列 的 顺序 可 能 和 你 预期 的 不 一 样 ， 可 能 需要 通过 补 键 来 

获得 正确 排序 。 在 字典 序 中 ， 是 按照 二 进 制 逐 字 下 从 左 到 右 依次 对 比 

每 一 个 行 键 ， 例 如 ，row-1. 小 于 row-2.. ， 因 此 ， 无 论 后 面 是 什么 ， 
将 始终 按照 这 个 顺序 排列 o 
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说 ， 行 键 总 是 唯一 的 ， 并 且 只 出 现 一 次 ， 否 则 你 束 是 在 更 新 同一 行 。 
虽然 BigTable 的 ; 仑 文 里 只 考虑 了 行 键 单一 索引 ， 但 是 HBase 增 加 了 对 辅 


a 


助 索引 (W938) 的 支持 。 行 链 可 以 是 任意 的 字 市 数组 ， 但 它 并 不 一 
定 征 人 直接 可 该 的 。 


一 行 由 若干 列 组 成 ， 若 干 列 义 构成 一 个 列 族 (column family) , 
这 不 仅 有 助 于 构建 数据 的 语义 边界 或 者 局 部 边界 ， 还 有 助 于 给 它们 设 
置 某 些 特性 (如 压缩 ) ， 或 者 指示 它们 存储 在 内 存 中 。 一 个 列 族 的 所 
有 列 存储 在 同一 个 压 层 的 存储 文件 里 ， 这 个 存储 文件 叫做 HFile 。 


列 族 需 要 在 表 创建 时 束 定 义 好 ， 并 且 不 能 修改 得 太 频 繁 ， 数 量 也 
不 能 太 多 。 在 当前 的 实现 中 有 少量 已 知 的 缺陷 ， 这 些 缺 陷 使 得 列 族 数 
量 只 限于 几 十 ， 实 际 情况 可 能 还 小 得 多 〈 详 情 见 第 9 章 ) 。 列 族 名 必须 
由 可 打印 字符 组 成 ， 这 与 其 他 名 字 或 值 的 命名 规范 有 显著 不 同 。 


S LAS | FU tA family: qualifier ，qualifier 是 任意 的 字 
TZE o 与 列 族 的 数量 有 限制 相反 ， 列 的 数量 没有 限制 :一 个 列 族 
里 可 以 有 数 百 万 个 列 。 列 值 也 没有 类 型 和 长 度 的 限定 。 


图 1-4 用 可 视 化 的 方式 展现 了 普通 数据 库 与 列 式 HBase 在 行 设 计 上 
的 不 同 ， 行 和 列 没 有 像 经 典 的 电子 表格 模型 那样 排列 ， 而 是 采用 了 标 
签 描述 (tag metaphor) ， 也 就 是 说 ， 信 息 保 存在 一 个 特定 的 标签 下 。 


column B column C column D 
(varchar) (boolean) {date} 


图 1-4 HBase 中 的 行 与 列 


全 图 1-4 中 的 *NULL9? ”表明 了 国定 模式 的 数据 库 在 没 
有 值 的 地 方 必 须 存储 NULL 值 ， 但 是 在 HBase 的 存储 架构 中 ， 
可 以 干脆 省 略 整个 列 ， 换 句 话说 ， 空 值 是 没有 任何 消耗 的 : 
它们 不 占用 任何 存储 空间 。 


所 有 列 和 行 的 信息 都 会 通过 列 族 在 表 中 定义 ， 关 于 这 一 点 我 们 在 
BETH ° 
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以 由 用 户 显 式 设置 。 时 间 戳 可 以 被 使 用 ， 例 如 通过 不 同 的 时 间 惟 来 区 


分 不 同 版 本 的 值 。 一 个 单元 格 的 不 同 版 本 的 值 按照 降序 排列 在 一 起 ， 
沪 问 的 时 候 优先 读 取 最 新 的 值 “这 种 优化 的 目的 在 于 计 新 什 比 者 值 更 
容易 被 读 取 。 


用 户 可 以 指定 每 个 值 所 能 保存 的 最 大 版 本 数 。 此 外 ， 还 文 持 谓词 
删除 (predicate deletion， 见 8.1.2 节 关于 LSM 树 的 内 容 ) ， 例 如 ， 人 允许 
用 户 只 保存 过 去 一 周 内 写 入 的 值 。 这 些 值 (或 单元 格 ) 也 只 是 未 解释 
的 字 节 数组 ， 客 户 端 需要 知道 怎样 去 处 理 这 些 值 。 


前 面 提 到 过 ，HBase 是 按照 BigTable 模 型 实现 的 ， 是 一 个 稀疏 的 、 


分 布 式 的 、 持 人 久 化 的 、 多 维 的 映射 ， 由 行 键 、 列 键 和 时 间 鹤 索引 。 将 
以 上 特点 联系 在 一 起 ， 我 们 束 有 了 如 下 的 数据 存 取 梗 式 : 


(Table, RowKey, Family, Column, Timestamp)—> Value 


可 以 用 一 种 更 像 编 程 语 言 的 风格 表示 如 下 : 


SortedMap< 
RowKey, List< 
SortedMap< 
Column, List< 


Value, Timestamp 


或 者 用 一 行 来 表示 : 


SortedMap< RowKey, List< SortedMap< Column,List< Value, Timestamp>>>> 


第 一 个 SortedMap 代表 那个 表 ， 包 含 一 个 列 族 的 List 。 列 族 中 
包含 了 另 一 个 SortedMap 存储 列 和 相应 的 值 。 这 些 值 在 最 后 的 List 
中 ， 和 存储 了 值 和 该 值 被 设置 的 时 间 谢 。 


这 个 数据 存 取 模 型 的 一 个 有 趣 的 特性 是 单元 格 可 以 存在 多 个 版 
本 ， 不 同 的 列 被 写 入 的 次 数 不 同 。API 默 认 提供 了 一 个 所 有 列 的 统一 视 
图 ，API 会 目 动 选择 单元 格 的 当前 值 。 独 1-5 展 示 了 示例 表 中 的 某 一 
人 


图 1-5 用 表示 单元 格 被 写 入 的 时 间 戳 所 可 视 化 了 时 间 组 件 ， 升 序 显 


示 了 这 些 值 被 插入 的 不 同时 间 。 图 1-6 是 另 一 种 碍 看 数据 的 方式 ， 在 这 
种 更 类 似 电 子 表格 的 形式 中 ， 将 时 间 玲 添加 到 了 它 目 己 的 那 一 列 中 。 


baa: pad “meta:size” 


“f "name", “lars”, 
address":...}" 
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图 1-5 于 时 间 的 行 的 组 成 部 分 


Column “data:” Column “meta” Column “counters:” 
ee] “updates” 
E. i ”{ "name": “lars” “address”: ...}" 2323" > 


“{ "name”: "lars", “address”: ...}" 


—— aa 
EC 7 
EE “{ "name”: "lars", “address”: ...}” hn hE lh. i 


图 1-6 用 电子 表格 展示 行 中 相同 的 部 分 


尽管 这 些 值 插入 的 次 数 不 同 ， 并 且 存 在 多 个 版 本 ， 但 是 仍然 能 将 
行 看 作 是 所 有 列 以 及 这 些 列 的 最 新 版 本 ( 即 每 一 列 的 最 大 ) 的 组 
这 里 提供 了 查询 一 个 特定 时 间 稚 或 者 是 特定 时 间 戳 之 前 的 值 的 方 
式 ， 也 可 以 一 次 查询 多 个 版 本 的 值 ， 关 于 这 一 点 请 参见 第 3 章 。 


webtable 


BigTable 和 HBase 的 典型 使 用 场景 是 webtable， 人 存储 从 
互联 网 中 抓 取 的 网 页 。 


行 键 是 反 转 的 网 页 URL， 如 org,hbase,.www。 有 一 
个 用 于 存储 网 页 HTML 代码 的 列 族 contents ， 还 有 其 他 
的 列 族 ， 如 anchor ， 用 于 存储 外 回 链 接 和 入 站 链接 ， 还 
有 一 个 用 于 存储 元 数据 的 列 族 language ° 


contents 列 族 使 用 多 版 本 ， 人 允许 用 户 存 储 一 些 旧 的 
HTML 副 本 ， 使 用 多 版 本 是 有 益 的 ， 例 如 帮助 分 析 一 个 页 
面 的 变化 频率 。 使 用 的 时 间 戳 是 抓 取 该 页 面 的 实际 次 数 。 


行 数据 的 存 取 操 作 是 原子 的 (atomic) ， 可 以 读 写 任 意 数目 的 
列 。 目 前 还 不 支持 跨行 事务 和 跟 表 事务 。 原 子 存 取 也 是 促成 系统 架构 
具有 强 一 致 性 (strictly consistent) 的 一 个 因素 ， 因 为 并 发 的 读 写 者 可 
以 对 行 的 状态 作出 安全 的 假设 。 


使 用 多 版 本 和 时 间 鹤 同样 能 够 帮助 应 用 层 解决 一 致 性 问题 。 
14.3 ”自动 分 区 
HBase 中 扩展 和 负载 均衡 的 基本 单元 称 为 region，region 本 质 上 十 以 


行 键 排序 的 连续 存储 的 区 间 。 如 果 region 太 大 ， 系 统 就 会 把 它们 动态 拆 
分 ， 相 反 地 ， 就 把 多 个 region 合 并 ， 以 减少 存储 文件 数量 。 


ts 

一 一 HBase 中 的 region 等 同 于 数据 库 分 区 中 用 的 范围 划 
分 (range partition) 。 它 们 可 以 被 分 配 到 若干 台 物理 服务 器 
上 以 均 摊 负载 ， 因 此 提供 了 较 强 的 扩展 性 。 


一 张 表 初始 的 时 候 只 有 一 个 region， 用 户 开 始 向 表 中 插入 数据 时 ， 
系统 会 检查 这 个 region 的 大 小 ， 确 保 其 不 超过 配置 的 最 大 值 。 如 果 超 过 
了 限制 ， 系 统 会 在 中 间 键 ”(middle key，region 中 间 的 那个 行 键 ) 处 将 
这 个 region 拆 分 成 两 个 大 致 相等 的 子 region 〈 详 情 见 第 8 章 ) 。 


每 一 个 region 只 能 由 一 台 region 服 务 器 (region server) 加 载 ， 每 一 
台 region 服 务 器 可 以 同时 加 载 多 个 region。 图 1-7 展 示 了 一 个 表 ， 这 个 表 
实际 上 是 一 个 由 很 多 region 服 务 妖 加载 的 region 集 合 的 逻辑 视图 。 


region 服 务 器 : 物理 布局 


Ez 
a 
pa 
zy 


表 : 


图 1-7 ”region 中 的 行 分 组 加 载 到 不 同 的 服务 器 中 


-oas 

aa 
一 人 BigTable 的 论文 中 指出 ， 每 台 服务 器 中 region 的 最 
佳 加 载 数量 是 10~1000， 每 个 region 的 最 佳 大 小 是 100 MB~ 
200 MB。 这 个 标准 是 以 2006 年 (以 及 更 早 以 前 ) 的 硬件 配置 
为 基准 参数 建议 的 。 按 照 HBase 和 现在 的 硬件 能 力 ， 每 台 服 
务 器 的 最 佳 加 载 数量 差不多 还 是 10~1000， 但 每 个 region 的 
最 佳 大 小 是 1GB~2 GBT ° 


虽然 数量 增加 了 ， 但 旦 基本 原理 还 是 一 样 的 : 每 合 服务 
器 能 加 载 的 region 数 量 和 每 个 region 的 最 佳 存储 大 小 取决 于 单 
台 服 务 右 的 有 效 处 理 能 


region 拆 分 和 服务 相当 于 其 他 系统 提供 的 自动 分 区 
(autosharding) 。 当 一 个 服务 器 出 现 故 障 后 ， 该 服务 器 上 的 region 可 以 
快速 恢复 ， 并 获得 细 粒 度 的 负载 均衡 ， 因 为 当 服务 于 某 个 region 的 服务 
器 当前 负载 过 大 、 发 生 错误 或 者 被 停止 使 用 导致 不 可 用 时 ， 系 统 会 将 
该 region 移 到 其 他 服务 右上 。 


Te gion 拆 oy AS BRE HSE Be ERB BBE I] 为 拆 分 之 后 的 region 
读 取 的 仍然 是 原 存 储 文件 ， 直 到 合并 把 存储 文件 异步 地 写成 独立 的 文 
件 ， 详 情 见 第 8 章 。 


1.4.4 ”存储 API 


“BigTable 并 不 文 持 完 整 的 关系 数据 模型 ， 相反， 它 提 
供 了 具有 简单 数据 模型 的 客户 端 ， 这 个 简单 的 数据 模型 文 
持 动 态 控 制 数据 的 布局 格式 ..…...” 


API 提 供 了 建 表 、 删 表 、 增 加 列 族 和 删除 列 族 操作 ， 同 时 还 提供 了 
修改 表 和 列 族 元 数据 的 功能 ， 如 压缩 和 设置 块 大 小 。 此 外 ， 它 还 提供 
了 客户 闪 对 给 定 的 行 键 值 进行 增加 、 删 除 和 查找 操作 的 功能 。 


scan API 提 供 了 融 效 刀 历 某 个 范围 的 行 的 功能 ， 同 时 可 以 限定 返回 
哪些 列 或 者 返回 的 版 本 数 。 通 过 设置 过 滤 紫 可 以 匹配 返回 的 列 ， 通 过 
设置 起 始 和 终止 的 时 间 范 围 可 以 选择 查询 的 版 本 。 


在 这 些 基 本 功能 的 基础 上 ， 还 有 一 些 更 高 级 的 特性 。 系 统 文 持 单 
行事 务 ， 基 于 这 个 特性 ， 系 统 实现 了 对 单个 行 键 下 存储 的 数据 的 原子 
读 -修改 - 写 (read-modify-write) 序列 。 虽 然 还 不 支持 跨行 和 跨 表 的 事 
务 ， 但 客户 端 已 经 能 够 文 持 批 量 操作 以 获得 更 好 的 性 能 。 


单元 格 的 值 可 以 当 作 计数 器 使 用 ， 并 且 能 够 文 持原 子 更 新 。 这 个 
计数 鲁能 够 在 一 个 操作 中 完成 读 和 修改 ， 因 此 尽管 是 分 布 式 的 系统 染 
构 ， 客 户 端 依然 可 以 利用 此 特性 实现 全 局 的 、 强 一 致 的 、 连 续 的 计数 
5B 。 


还 可 以 在 服务 器 的 地 址 空间 中 执行 来 自 客 户 端 的 代码 ， 文 持 这 种 
功能 的 服务 端 框架 叫做 协 处 理 器 (coprocessor) 。 这 个 代码 能 直接 访 
问 服务 器 本 地 的 数据 ， 可 以 用 于 实现 轻 量 级 批 处 理 作业 ， 或 者 使 用 表 
达 却 并 基于 各 种 操作 来 分 析 或 汇总 数据 。 
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“HBase 在 0.91.0 版 本 中 加 入 了 协 处 理 器 。 
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BUA, RELER RiR I MapReducetiiR, AAR a hey 
将 表 转 换 成 MapReduce 作 业 的 输入 源 和 输出 目标 。 


与 RDBMS 不 同 ，HBase 系 统 没有 提供 查询 数据 的 特定 域 语言 ， 例 
如 SQL。 数 据 存 取 不 是 以 声明 的 方式 完成 的 ， 而 十 通过 客户 疾 API 以 纯 
粹 的 命令 完成 的 。HBase 的 API 主 要 是 Java 代 码 ， 但 是 也 可 以 用 其 他 编 
程 语言 来 存 取 数 据 。 
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“BigTable...... IFA win TERT TE IE Fa PRRI 
据 的 位 置 属性 。” 


数据 存储 在 存储 文件 (store file) 中 ， 称 为 HFile，HFile 中 存储 的 
是 经 过 排序 的 键 值 映射 结构 。 文 件 内 部 由 连续 的 块 组 成 ， 块 的 索引 信 
息 存储 在 文件 的 尾部 。 当 把 HFile 打 开 并 加 载 到 内 存 中 时 ， 索 引信 息 会 
优先 加 载 到 内 存 中 ， 每 个 块 的 默认 大 小 是 64KB， 可 以 根据 需要 配置 不 
T Too SBOE RNA ALES IEF EVE A APIA F 
习 描 特定 的 值 。 


Ee! 
一 一 关于 实现 的 细节 会 在 第 8 章 中 讨论 ， 接 下 来 只 是 对 
系统 的 实现 进行 简单 介绍 。 


每 一 个 HFile 都 有 一 个 块 索 引 ， 通 过 一 个 磁盘 查找 惑 可 以 实现 得 
询 。 首 匈 ， 在 内 存 的 块 索引 中 进行 二 分 查找 ， 确 定 可 能 包含 给 定 键 的 
块 ， 然 后 读 取 磁 强 块 找到 实际 要 找 的 键 。 


存储 文件 通常 保存 在 Hadoop 分 布 式 文件 系统 (Hadoop Distributed 
File System, HDFS) 中 ，HDFS 提 供 了 一 个 可 扩展 的 、 持 久 的 、 见 余 的 
HBase 存 储 层 。 存 储 文 件 通 过 将 更 改写 入 到 可 配置 数目 的 物理 服务 器 
中 ， 以 你 证 不 丢失 数据 。 


每 次 更 新 数据 时 ， 都 会 先 将 数据 记录 在 提交 日 志 (commit log) 
中 ， 在 HBase 中 这 叫做 预 写 日 志 (write-aheadlog, WAL) ， 然 后 才 会 


将 这 些 数 据 写 入 内 存 中 的 memstore 中 。 一 旦 内 存 保存 的 写 入 数据 的 票 
计 大 小 超过 了 一 个 给 定 的 最 大 值 ， 系 统 束 会 将 这 些 数据 移出 内 存 作 为 
HFile 文 件 刷 写 到 磁盘 中 。 数 据 移 出 内 存 之 后 ， 系 统 会 丢弃 对 应 的 提交 
日 志 ， 只 保留 末 持 久 化 到 磁盘 中 的 提交 日 志 。 在 系统 将 数据 移出 
memstore 写 入 偿 一 的 过 程 中 ， 可 以 不 必 阻 塞 系统 的 读 写 ， 通 过 滚动 内 
存 中 的 memstore 吏 能 达到 这 个 目的 ， 即 用 衬 的 新 memstore 获 取 更 新 数 
据 ， 将 满 的 日 memstore 转 换 成 一 个 文件 。 请 注意 ，memstore 中 的 数据 
已 经 按照 行 键 排 序 ， 持 久 化 到 位 盘 中 的 HEile 也 是 按照 这 个 顺序 排列 
的 ， 所 以 不 必 执 行 排序 或 其 他 特殊 处 理 。 


一 现在 我 们 开始 讨论 本 节 开头 提 到 的 BigTable 引 文 ， 
并 搞 清 位 置 属性 (locality property) 是 什么 。 所 有 文件 包含 
的 键 / 值 对 都 是 按 行 键 顺序 归 类 的 ， 并 且 对 块 级 别 的 操作 做 了 
优化 ， 比 如 顺序 地 读 取 这 些 键 / 值 对 的 操作 ， 因 此 ， 行 键 需要 
特殊 指定 。 在 前 面 介绍 webtable 的 例子 中 ， 你 可 能 已 经 注意 
到 了 ， 使 用 的 行 键 是 反 转 的 FQDN (网 址 的 域名 部 分 ) ， 如 
org,hbase,www。 主 要 原因 是 通过 网 址 反 转 ， 把 网 址 中 最 
重要 的 部 分 一 ”顶级 域名 (TLD) 放 在 最 前 面 ， 可 以 让 来 自 
hbase.org 的 网 页 在 HBase 中 顺序 地 排列 在 一 起 。 例 如 ， 
blog.hbase.org 下 面 的 页 面 和 那些 来 自 www. hbase .org 的 页 

会 归 为 一 类 ， 或 者 说 org ,hbase ,www 会 排列 在 
org.hbase.blog 的 后 面 。 


因为 存储 文件 是 不 可 被 改变 的 ， 所 以 无 法 通过 移 除 某 个 键 / 值 对 来 
简单 地 删除 值 。 可 行 的 解决 办 法 是 ， 做 个 删除 标记 (delete marker, X 
称 墓碑 标记 ) ， 表 明 给 定 行 已 被 删除 的 事实 。 在 检索 过 程 中 ， 这 些 删 
除 标记 掩盖 了 实际 值 ， 客 户 端 读 不 到 实际 值 。 


读 回 的 数据 是 两 部 分 数据 合并 的 结果 ， 一 部 分 是 memstore 中 还 没 
有 写 入 人 磁 一 的 数据 ， 另 一 部 分 是 磁盘 上 的 存储 文件 。 值 得 注意 的 是 ， 
数据 检索 时 用 不 厦 WAL， 只 有 服务 器 内 存 中 的 数据 在 服务 器 般 溃 前 没 
有 写 入 到 磁盘 ， 而 后 进行 恢复 数据 时 才 会 用 到 WAL 。 

随 着 memstore 中 的 数据 不 断 刷 写 到 磁 弄 中， 会 产生 越 来 越 多 的 
HFile 文 件 ，HBase 内 部 有 一 个 解决 这 个 问题 的 管家 机 制 ， 即 用 合并 将 
多 个 文件 合并 成 一 个 较 大 的 文件 。 合 并 有 两 种 类 型 : minor 合 并 

(minor compaction) 和 major 压 缩合 并 (majar compaction) 。minor 合 
并 将 多 个 小 文件 重 写 为 数量 较 少 的 大 文件 ， 减 少 存储 文件 的 数量 ， 这 
个 过 程 实际 上 是 个 多 路 归并 的 过 程 。 因 为 HFile 的 每 个 文件 都 是 经 过 归 
类 的 ， 所 以 合并 速度 很 快 ， 只 受到 磁盘 IO 性 能 的 影响 。 

major 合 并 将 一 个 region 中 一 个 列 族 的 春 干 个 HFile 重 写 为 一 个 新 
HFile， 与 minor 合 并 相 比 ， 还 有 更 独特 的 功能 : major 合 并 能 扫 摘 所 有 
的 键 / 值 对 ， 顺 序 重 写 全 部 的 数据 ， 重 写 数据 的 过 程 中 会 略 过 做 了 删除 
标记 的 数据 。 断 言 删除 此 时 生殖 ， 例 如 ， 对 于 那些 超过 版 本 号 限制 的 
数据 以 及 生存 时 间 到 期 的 数据 ， 在 重 写 数据 时 就 不 再 写 入 位 盘 了 。 


一 一 这 种 架构 来 源 于 LSM 树 ( 见 8.1.2 节 ) 。 唯 一 的 区 别 
是 ，LSM 树 将 多 页 块 (multipage block) 中 的 数据 存储 在 磁 
盘 中 ， 其 存储 结构 布局 类 似 于 B 树 。 在 HBase 中 ， 数 据 的 更 新 
与 合并 是 轮流 进行 的 ， 而 在 BigTable 中 ， 更 新 是 更 粗 粒 度 的 
操作 ， 整 个 memstore 会 存储 为 一 个 新 的 存储 文件 ， 不 会 马上 
合并 。 可 以 把 HBase 的 这 种 架构 称 为 “LSM 映射 ”(Log- 
Structured Sort-and-Merge-Map) 。 后 台 合 并 过 程 与 LSM 树 的 
结构 合并 过 程 相对 应 ， 只 不 过 HBase 合 并 重 写 整个 文件 ， 而 

`\ 会 像 LSM 树 一 样 只 操作 树 结构 的 部 分 数据 ，LSM 树 结构 也 
正 是 因为 这 种 操作 而 得 名 。 


HBase 中 有 3 个 主要 组 件 ， 客户 端 库 、 一 台 主 服务 器 、 多 人 台 region 服 
务 妖 。 可 以 动态 地 增加 和 移 除 region 服 务 器 ， 以 适应 不 断 变 化 的 负载 。 
EMA as EB fh Tt Fil FA Apache ZooKeeper 为 region 服 务 絮 分 本 region， 
Apache ZooKeeper 是 一 个 可 靠 的 、 高 可 用 的 、 持 久 化 的 分 布 式 协调 系 
Zs 


du” 


Apache ZooKeeper 


ZooKeeper ”是 Apache 软 件 基金 会 旗下 的 一 个 独立 开 
源 系 统 ， 它 是 Google 公 司 为 解决 BigTable 中 问题 而 提出 的 
Chubby 算 法 的 一 种 开源 实现 。 它 提供 了 类 似 文件 系统 一 样 
的 访问 目录 和 文件 ( 称 为 znode) 的 功能 ， 通 常 分 布 式 系 
统 利用 它 协 调 所 有 权 、 注 册 服 务 、 监 听 更 新 。 


每 台 region 服 务 句 在 ZooKeeper 中 注册 一 个 目 己 的 临时 
节点 ， 主 服务 器 会 利用 这 些 临 时 市 点 来 发 现 可 用 服务 器 ， 
还 可 以 利用 临时 市 点 来 跟 躁 机 器 故障 和 网 络 分 区 。 


在 ZooKeeper 服 务 器 中 ， 每 个 临时 节点 都 属于 某 一 个 
会 话 ， 这 个 会 话 是 客户 瘦 连 授 上 ZooKeeper 服 务 姨 之 后 目 
动 生 成 的 。 每 个 会 话 在 服务 器 中 有 一 个 唯一 的 d， 并 且 客 
户 端 会 以 此 id 不 断 地 疝 ZooKeeper 服 务 器 发 送 “ 心 跳 *， 一 旦 
发 生 故 障 ZooKeeper 客 户 端 进程 死 挥 ，ZooKeeper 服 务 絮 会 
判定 该 会 话 超时 ， 并 目 动 删除 属于 它 的 临时 节点 。 


HBase 还 可 以 利用 ZooKeeper 人 确保 只 有 一 个 主 服务 器 在 
运行 ， 存 储 用 于 发 现 region 的 引导 位 置 ， 作 为 一 个 region 服 
务 需 的 注册 表 ， 以 及 实现 其 他 目的 。ZooKeeper 和 是 一 个 天 
键 组 成 部 分 ， 没 有 它 HBase 就 无 法 运作 。ZooKeeper 使 用 分 


布 式 的 一 系列 服务 器 和 Zab 协 议 (确保 其 状态 保持 一 致 ) 
减 径 了 应 用 上 的 负担 。 


图 1-8 展 示 了 HBase 的 各 个 组 件 是 如 何 利 用 像 HDFS 和 ZooKeeper 这 
Dea 完 协 调 地 组 织 起 来 的 ， 而 且 还 增加 了 目 己 的 层 以 形成 一 个 
完 A 


HBase 


= 一 一 
Be 
一 一 | Write-Ahead Log | E 


图 1-8 HBase 利 用 自身 组 件 的 同时 还 平衡 地 利用 


master 服 务 器 负责 跨 region 服 务 器 的 全 局 region 的 负载 均衡 ， 将 繁 位 
的 服务 器 中 的 region 移 到 负载 较 轻 的 服务 器 中 。 主 服务 器 不 是 实际 数据 
存储 或 者 检索 路 径 的 组 成 部 分 ， 它 仅 提 供 了 负载 均衡 和 集群 管理 ， 不 
为 region 服 务 器 或 者 客户 端 提供 任何 的 数据 服务 ， 因 此 是 轻 量 级 服务 
此 外 ， 主 服务 器 还 提供 了 元 数据 的 管理 操作 ， 例 如 ， 建 表 和 创建 

IJE o 

regioni kir TN 它们 服务 的 region 近 供 读 卖 写 请 求 ， 也 提供 了 拆 
分 超过 配置 大 小 的 region 的 接口 。 客 户 端 则 直接 与 region 服 务 絮 通信 ， 
处 理 所 有 数据 相关 的 操作 。 


8.5 广 详细 介绍 了 客户 端 如 何 执行 region 查 找 。 


己 有 的 系统 


= 


1.4.6 小结 


“ 数 十 亿 行 x 数 百 万 列 x 数 千 个 版 本 = TB 级 或 PB 级 的 存 
储 >” 


我 们 已 经 见识 到 ，BigTable 的 存储 架构 十 怎样 使 用 多 台 服 务 紫 将 按 
键 归 类 的 行 拆 分 成 多 个 施 围 来 负载 均衡 的 ， 还 看 到 了 它 是 走样 使 用 上 
千 全 机 器 存储 PB 级 数据 的 。 使 用 的 存储 格式 对 于 顺序 读 相 邻 的 键 / 值 对 
来 说 是 很 理想 的 ， 这 种 格式 针对 块 WO 操 作 做 了 优化 ， 能 最 大 限度 地 利 
用 磁盘 传输 通道 。 


表 的 扫描 与 时 间 呈 线性 关系 ， 行 键 的 查找 以 及 修改 操作 与 时 间 呈 
对 数 关 系 一 一 极端 情况 下 是 常数 关系 〈 使 用 了 布 隆 过 滤 右 ) 。HBase 在 
设计 上 完全 避免 了 显 却 的 锁 ， 提 供 了 行 原子 性 操作 ， 这 使 得 系统 不 会 
因为 读 写 操作 性 能 而 影响 系统 扩展 能 力 。 


当前 的 列 式 存 储 结构 允许 表 在 实际 存储 时 不 存储 NULL 值 ， 因 此 表 
可 以 看 作 是 个 无 限 的 、 稀 玖 的 表 。 表 中 每 行 数据 只 由 一 台 服 务 占 所 服 
务 ， 因 此 HBase 具 有 强 一 致 性 ， 使 用 多 版 本 可 以 避免 因 并 发 解 稍 过 程 引 
起 的 编辑 冲突 ， 而 且 可 以 保留 这 一 行 的 历史 变化 。 


事实 上， 至 少 从 2005 年 开始 ，BigTable 就 已 经 应 用 于 Google 生 产 ， 
拥有 非常 多 的 应 用 场景 ， 从 批 处 理 到 实时 数据 服务 都 有 它 的 号 影 。 
BigTable 存 储 的 数据 既 可 以 非常 小 〈 例 如 URL) ， 也 可 以 特别 大 (如 网 
页 和 卫星 图 乒 ) ， 还 成 功 地 为 许多 知名 的 Google 产 品 提供 了 灵活 的 、 
高 性 能 的 解决 方案 ， 这 些 产品 包括 Google Earth ` Google Reader ` 
Google Finance 和 Google Analytics。 


1.5 HBase: Hadoop 数 据 库 

看 过 BigTable 时 以 构 之 后 ， 我 们 可 能 会 丛 单 地 认为 HBase 完 全 是 
Google 的 BigTable 的 开源 实现 。 但 是 这 个 说 法 可 能 过 于 人 简单， 因为 两 者 
之 间 还 有 些 差 异 (大 多 是 细微 的 ) 值得 一 提 。 


1.5.1 历史 


HBase 是 Powerset ® 在 2007 年 创建 的 ， 最 初 是 Hadoop 的 一 部 分 。 之 
后 ， 它 逐步 成 为 Apache 软 件 基金 会 旗下 的 顶级 项 目 ， 具 备 Apache 软 件 
许可 证 ， 版 本 为 2.0。 


HBase 项 目的 主页 是 http://hbase.apache.org/ ， 通 过 这 个 主页 可 以 
链接 到 文档 (documentation) 、wiki、 源 代码 库 (source repository) , 
以 及 已 经 发 布 的 库 和 源 代码 的 下 载 站 点 。 


下 面 是 一 个 HBase 随 时 间 发 展 的 简短 概述 。 


2006 年 11 月 : Google 发布 BigTable 论 文 。 

2007 年 2 月 ，HBase 宣 布 在 Hadoop 项 目 中 成 立 。 包 
2007 年 10 月 : HBase 第 一 个 “可 用 ”版 本 (Hadoop 0.15.0) ° 
2008 年 1 月 : Hadoop 成 为 Apache 的 顶级 项 目 ，HBase 成 为 Hadoop 的 
子 项 目 。 

2008 年 10 月 : HBase 0.18.1 发 布 。 

2009 年 1 月 : HBase 0.19.0 发 布 。 

2009 年 9 月 : HBase 0.20.0 发 布 ， 性 能 有 明显 提升 。 
2010 年 5 月 : HBase 成 为 Apache 的 顶级 项 目 。 

2010 年 6 月 : HBase 0.89.20100621， 第 一 个 开发 版 本 。 
2011 年 1 月 : HBase 0.90.0 发 布 ， 稳 定性 和 持久 性 有 所 提升 。 
2011 年 年 中 : HBase 0.92.0 发 布 ， 支 持 协 处 理 器 和 安全 控制 。 


一 人 2010 年 5 月 前 后 ，HBase 的 开发 者 决定 打破 一 直 依 赖 
的 、 步 调 一 致 的 Hadoop 的 版 本 编号 。 原 因 是 HBase 有 一 个 更 
快 的 发 布 周 期 ， 同 时 更 接近 1.0 版 本 的 水 平 ， 比 Hadoop 的 预 
期 更 快 。 


为 此 ， 版 本 号 从 0.20.x 跳 到 了 0.89.x， 跳 路 相当 明显 。 此 
外 ， 还 做 了 一 个 决定 ， 将 0.89.x 定 为 早期 的 开发 版 本 。 在 0.89 
的 基础 上 最 终 发 布 了 0.90， 即 面向 所 有 用 户 的 稳定 版 。 


1.5.2 ”命名 


HBase 与 BigTable 最 大 的 不 同 丈 是 命名 。 表 1-1 罗 列 了 两 个 系统 之 间 
相同 组 件 的 命名 有 哪些 不 同 。 


表 1-1 命名 差异 


15.3 “小 结 


让 我 们 回 到 1.3.1 节 来 看 看 怎样 用 维度 来 描述 HBase 系 统 。HBase 是 
一 个 分 布 式 的 、 持 和 久 的 、 强 一 致 性 的 存储 系统 ， 具 有 近似 最 优 的 写 性 
能 〈 能 使 JO 利 用 率 达 到 饱和 ) 和 出 色 的 读 性 能 ， 它 充分 利用 了 磁 强 空 
间 ， 支 持 特定 列 族 切 换 可 选 压缩 算法 。 


HBase 继 厌 目 BigTable 模 型 ， 只 考虑 单一 的 索引 ， 类 似 于 RDBMS 中 
的 主键 ， 提 供 了 服务 器 端 钩子 ， 可 以 实施 灵活 的 辅助 索引 解决 方案 。 
此 外 ， 它 还 提供 了 过 滤器 功能 ， 减 少 了 网 络 传输 的 数据 量 。 


HBase 并 未 将 说 明 性 查询 语言 作为 核心 实现 的 一 部 分 ， 对 事务 的 文 
持 孔 有限。 但 行 原 子 性 和 * 谈 -修改 - 写 ? 操 作 在 实践 中 弥补 了 这 个 缺陷 ， 
筷 们 履 兰 了 大 部 分 的 使 用 场景 并 消除 了 在 其 他 系统 中 经 历 过 的 死 锁 、 


HAEE 
等 得 问题 。 


HBase 在 进行 负载 均衡 和 故障 恢复 时 对 客户 端 是 透明 的 。 在 生产 系 
统 中 ， 系 统 的 可 扩展 性 体现 在 系统 目 动 伸缩 的 过 程 中 。 更 改 集群 并 不 
pa i ， 但 整个 处 理 过 程 完全 是 目 动 化 


© 例如 ， 参 见 Michael StonebrakerfUsurCetintemel# SH) C= “One 
Size Fits All’: An Idea Whose Time Has Come and Gone” ( 
http://www.cs.brown.edu/~ugur/fits_all.pdf ) 。 


© 相关 信息 可 以 在 Hadoop 的 官方 网 站 http://hadoop.apache.org/ 中 找 
到 。 也 可 以 到 Tom White 编写 的 《Hadoop 权 威 指南 (第 2 版 ，》 ( 原 出 
版 社 为 O'Reilly) 一 书 中 查阅 你 想 了 解 的 Hadoop 知 识 。 


© 此 处 引用 的 是 Kimball 集 团 的 Ralph Kimball 博 士 的 一 篇 题 

为 “Rethinking EDW in the Era of Expansive Information Management” H$ 
演讲 ( http:/www.informatica.com/campaigns/rethink_edw_kimball.pdf 
) ， 这 个 演讲 讨论 了 一 个 不 断 发 展 的 企业 数据 仓库 市 场 的 需求 。 


@ Edgar F. Codd 定 义 了 13 个 规则 《编号 为 0 一 12) ， 这 些 规则 促使 数据 
库 管 理 系统 (Datebase Management System, DBMS) 被 考虑 为 
RDBMS。HBase 需 要 满足 更 多 的 通用 规则 ， 但 也 有 一 些 规则 没有 满 
足 ， 最 重要 的 是 规则 5: 全 面 的 数据 了 于 语言 规则 ， 这 个 规则 定义 了 至 少 
需要 文 持 一 种 天 系 型 语言 。 详 情 见 维基 百科 关于 科 德 十 二 定律 的 链接 
http://en.wikipedia.org/wiki/Codd's_12_rules ° 


© 见 Facebook 提 供 的 信息 http://www.facebook.com/note.php ? 
note_id=89508453919 ° 


© 请 看 博文 http://www.facebook.com/note.php ?note_id=454991608919 , 

这 篇 博文 来 自 Facebook 的 工程 团队 。150 亿 条 墙 消 息 和 1200 亿 条 聊天 消 
娠 ， 共 计 1350 亿 条 消 居 一 个 月 。 此 外 ，Facebook 还 添加 了 SMS 和 其 他 

一 些 应 用 ， 这 些 都 会 使 数据 量变 得 更 为 庞大 。 


@ Facebook 使 用 了 Haystack，Haystack 优 化 了 二 进 制 大 对 象 的 存储 结 
构 ， 提 供 了 二 进 制 小 对 象 存储 ， 例 如 图 片 。 


J, http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase , 
这 是 Facebook 的 员工 Nicolas Spiegelberg 写 的 ， 他 也 是 HBase 的 
committer ° 


© Linux ` Apache ` MySQL4#IPHP 《或 者 Perl 和 Python) 的 缩写 。 
Atomicity、Consistency、Isolation 和 Durability 的 缩写 。 


QD Memcached 是 基于 内 存 的 、 非 持久 化 的 、 非 分 布 式 的 键 值 存储 系 
统 。 参 见 Memcached 项 目的 主页 http://memcached.org/ ° 


2) 见 维基 百科 中 的 “NoSQL” ( http://en.wikipedia.org/wiki/NoSQL ) ° 


(3 见 Eric Brewer 的 论文 http://www.cs.berkeley.edu/~brewer/cs262b- 
2004/PODC-keynote.pdf ， 后 期 Gilbert 与 Lynch 发 表 了 PDF 版 ， 详 情 见 
http://lpd.epfl.ch/sgilbert/pubs/BrewersConjecture-SigAct.pdf ° 


见 Brewer 的 论文 “Lessons from giant-scale services. Internet 
Computing”，IEEE，2001，5 (4): 46~55 ( 
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp ?arnumber=939450 ) ° 


(5) 见 Jim Gray 等 人 的 “FT 101” ( http://research.microsoft.com/en- 
us/um/people/gray/talks/UCBerkeley_Gray_FT_Avialiability_talk.ppt ) ° 


DDI 这 个 词 是 Salmen 博 士 等 人 于 2009 年 在 “Cloud Data Structure 
Diagramming Techniques and Design Patterns” 一 文中 提出 的 。 


@ 请 注意 ， 这 仅仅 是 一 个 演示 用 例 ， 所 以 故意 将 模式 设计 得 很 简单 。 
(8 在 5.1.3 节 中 会 看 到 ， 还 可 以 不 设置 qualifier 。 


人 并 ， 但 是 有 离线 处 理 合 并 的 工具 ， 
详情 见 11.6 节 。 


20) 有 关 Apache ZooKeeper 的 更 多 信息 请 参见 Apache ZooKeeper 官 方 网 站 
( http://hadoop.apache.org/zookeeper/ ) ° 


CD Powerset 公 司 位 于 旧金山 ， 开 发 了 一 套用 于 互联 网 的 自然 语言 搜索 
引擎 。 在 2008 年 7 月 1 日 ， 微 软 公 司 收购 了 Powerset， 之 后 Powerset 放 弃 
了 对 HBase 开 发 的 后 乡 卖 支持 ° 


@) 在 Apache JIRA (网 站 上 的 问题 追踪 系统 ) 中 找到 HBASE-287， 里 面 
可 以 找到 当时 的 记录 ， 读 者 可 以 看 到 Mike Cafarella 提 交 的 最 初代 码 ， 
这 个 代码 很 快 束 被 Jm Kellerman 采 纳 了 ，Jim Kellerman # ITH F 


Powerset ° 


Bom Bie 


本 章 将 讲述 如 何 安装 HBase 以 及 如 何 对 HBase 进 行 初始 化 配置 。 我 
们 可 以 在 命令 行 中 看 到 如 何 使 用 HBase 的 基本 操作 ， 例 如 ， 添 加 R 
[删除 数据 。 


一 以 下 讲述 的 内 容 均 假设 用 户 已 经 安装 了 Java 运 行 时 
环境 (Java Runtime Environment, JRE) ，Hadoop 和 HBase 
要 求 都 至 少 是 1.6 版 本 〈 也 称 为 Java 6) 以 上 的 JRE， 推 荐 使 
用 Oracle 公 司 〈 原 来 是 Sun 公 司 ， 后 来 Oracle 收 购 了 Sun 公 
司 ) 提供 的 版 本 ， 可 以 在 http:/www.java.com/download /下 
载 。 如 果 用 户 还 未 安装 Java 运 行 时 环境 ， 或 者 在 使 用 过 程 中 
存在 问题 ， 请 参见 2.2.3 攻 的 “Java”。 


2.1 快速 启动 指南 


想 知 道 如 何 运行 HBase 吗 ? 想 即 刻 知道 HBase 是 如 何 工作 的 吗 ? 
从 所 ;dr”2 部 分 开始 了 解 吧 ! 这 是 最 容易 理解 的 部 分 ， 因 为 用 户 只 需要 
从 Apache HBase 发 布 版 本 页 面 下 载 最 新 的 HBase 版 本 ( 
http://www.apache.org/dyn/closer.cgi/hbase/) ， 并 将 内 容 解 压 到 合适 的 
目录 ， 如 /usr/local 或 者 /opt 即 可 ， 就 像 这 样 : 


$ cd /usr/local 


$ tar -zxvf hbase-x.y.z 


. tar.gz 


设置 数据 路 径 


此 刻 ， 就 可 以 准备 启动 HBase 了 。 在 启动 HBase 之 前 ， 
建议 先 把 数据 目录 设置 到 合适 的 位 置 。 需 要 编辑 配置 文件 
conf/hbase-site.xml ， 并 设置 合适 的 数据 路 径 : 通过 对 属性 
键 hbase.rootdir 赋值 ， 来 配置 用 户 想 要 的 HBase 进 行 
写 操作 的 路 径 写 路 径 。 


< ?xml version="1.0"?> 
< ?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
< configuration> 

< property> 


< name>hbase.rootdir< /name> 
< value>file:///< PATH> 


/hbase< /value> 
< /property> 
< /configuration> 


用 户 可 以 目 定 义 上 述 示 例 配 置 文件 中 的 <PATH> ， 将 
其 奉 换 为 希望 存储 HBase 数 据 的 路 径 。 默 认 情 况 下 ， 
hbase. rootdir 设置 为 /imp/hbase-${username} ， 当 服务 
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重 局 的 时 候 清空 /tmp HK ° 


罕 换 之 后 ， 就 可 以 启动 HBase 并 开始 第 一 次 交互 了 。 在 交互 窗口 中 
的 提示 符 后 面 输入 status 命令 ( 按 回 车 键 完 成 命令 操作 ) : 


$ cd /usr/local/hbase-0.91.0-SNAPSHOT 
$ bin/start-hbase.sh 

starting master,logging to \ 
/usr/local/hbase-0@.91.0 


- SNAPSHOT 


/bin/../logs/hbase--master-localhost.out 
$ bin/hbase shell 


HBase Shell; enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version: ©.91.0-SNAPSHOT, r1130916, Sat Jul 23 12:44:34 CEST 2011 


hbase(main):001:0> status 


1 servers, 0 dead, 2.0000 average load 


以 上 显示 信息 表明 HBase 已 司 动 并 且 正在 运行 。 下 面 通过 使 用 一 些 
命令 证 明 HBase 能 够 将 数据 存放 进去 ， 接 痢 对 其 进行 检索 。 


一 一 现在 看 来 读者 也 许 还 不 是 很 清楚 我 们 正在 做 的 事情 
的 作用 ， 但 这 都 是 必要 的 准备 工作 ， 正 如 坐 在 一 辆 汽车 中 局 
动 发 动机 的 时 候 ， 也 需要 时 刻 掌 控 好 刹车 装置 一 样 。 其 实 ， 
在 类 似 生 产 的 环境 中 使 用 HBase， 还 需要 很 多 配置 和 要 了 解 
的 知识 ， 不 过 我 们 可 以 从 基础 的 HBase 命 令 开 始 学 习 ， 然 后 
逐渐 熟悉 高 层次 的 概念 。 


现在 我 们 运行 的 是 所 谓 的 单机 模式 (Standalone 

Mode) ， 查 看 后 面 的 章节 〈 见 2.5 节 ) 将 会 看 到 多 种 可 用 的 
模式 。 现 在 了 解 下 面 这 一 点 很 重要 : 在 单机 模式 中 ， 一 切 事 
物 都 运行 在 单个 Java 进 程 中 ， 并 且 所 有 的 文件 默认 情况 下 都 
将 存储 在 /tmp 路 径 下 一 一 除非 用 户 按 照 前 文中 给 出 的 提示 ， 
改变 了 存储 路 径 。 如 果 数 据 存储 在 默认 路 径 下 ， 服 务 器 一 旦 
重启， 测试 数据 束 会 丢失 。 数 据 一 旦 被 操作 系统 删除 ， 将 无 
法 恢复 。 


现在 来 创建 一 个 简单 的 表 并 新 增 几 行 数据 : 


hbase(main):002:0> create 'testtable', 'colfam1' 


© row(s) in 0.2930 seconds 
hbase(main):003:0> list 'testtable' 
TABLE 


testtable 
1 row(s) in 0.0520 seconds 


hbase(main):004:0> put 'testtable', 'myrow-1', 'colfam1:q1', 'value-1' 


© row(s) in 0.1020 seconds 


hbase(main):005:0> put 'testtable', 'myrow-2', 'colfam1:q2', 'value-2' 


© row(s) in 0.0410 seconds 


hbase(main):006:0> put 'testtable', 'myrow-2', 'colfam1:q3', 'value-3' 


© row(s) in 0.0380 seconds 


通过 一 条 命令 ， 我 们 创建 了 一 张 带 有 一 个 列 族 的 表 ， 读 者 可 以 通 
list 命令 来 检查 这 张 表 是 否 已 经 存在 了 。 目 前 只 有 一 张 表 的 情况 
下 ， 读 者 可 以 看 到 它 是 如 何 输出 表 名 testtable 的 。 然 后 ， 我 们 存放 
几 行 数据 。 读 者 仔细 阅读 示例 的 话 可 以 发 现 : 我 们 通过 两 个 不 同 的 行 
键 myrow-1 和 myrow-2 把 新 增 数 据 添加 到 两 个 不 同 的 行 中 。 由 第 1 章 
中 描述 的 表 结构 可 知 ， 在 有 了 一 个 名 为 colfam1 的 列 族 之 后 ， 还 要 添 
加 一 个 任意 的 限定 符 才 能 形成 实际 的 列 ， 如 colLfam1:q1、 
colfam1:q2 #lcolfam1:q3 。 


授 下 来 要 做 的 是 ， 确 认 新 增 的 数据 是 否 能 被 检索 ， 使 用 scan 操作 
PLACE: 


hbase(main):007:0> scan 'testtable' 


ROW COLUMN+CELL 

myrow-1 column=colfami:qi, timestamp=1297345476469, value= 
value-1 

myrow-2 column=colfami:q2, timestamp=1297345495663, value= 
value-2 


myrow-2 column=colfami:q3, timestamp=1297345508999, value= 
value-3 


2 row(s) in 0.1100 seconds 


你 已 经 看 到 HBase 是 如 何 打印 数据 鸭 ， 它 通过 面 癌 单元 格 的 方式 分 
别 输出 每 一 列 数据 。 可 以 看 出 它 确实 打印 了 两 次 myrow-2 ， 这 与 预期 
的 一 样 ， 后 面 还 显示 了 每 一 列 的 实际 数值 。 


如 琳 想 要 获得 单行 数据 ， 可 以 使 用 get 命令 ， 这 个 命令 有 很 多 选 
项 ， 后 面 会 详细 讨论 ， 现 在 只 人 商 单 地 芝 试 一 下 这 个 命令 


hbase(main):008:0> get 'testtable', 'myrow-1' 


COLUMN CELL 
colfami:qi timestamp=1297345476469, value=value-1 


1 row(s) in 0.0480 seconds 


删除 数据 也 是 基本 操作 之 一 ， 同 样 ，delete 命令 也 有 很 多 选项 ， 
但 现在 我 们 只 简单 地 届 除 一 个 具体 的 单元 格 并 检查 数据 是 否 真 的 删 
RT: 


hbase(main):009:0> delete 'testtable', 'myrow-2', 'colfam1:q2' 


© row(s) in 0.0390 seconds 


hbase(main):010:0> scan 'testtable' 


ROW COLUMN+CELL 
myrow-1 

column=colfam1i:qi, timestamp=1297345476469, value=value-1 
myrow-2 

column=colfam1:q3, timestamp=1297345508999, value=value-3 


2 row(s) in 0.0620 seconds 


在 对 这 文 个 简单 的 练习 进行 总 结 之 前 ， 需 要 移 葵 用 并 删除 这 张 练习 


hbase(main):011:0> disable 'testtable' 


© row(s) in 2.1250 seconds 


hbase(main):012:0> drop 'testtable' 


© row(s) in 1.2780 seconds 


然后 ， 通 过 输入 exit 命令 关闭 Shell 并 返回 到 命令 行 窗 口 : 


最 后 ， 运 行 stop -hbase, sh 脚本 关闭 HBase 系 统 : 


$ bin/stop-hbase.sh 


stopping hbase 


这 样 就 完成 了 整个 流程 。 我 们 成 功 地 创建 了 表 ， 进 行 了 数据 的 添 
加 、 检 索 以 及 删除 ， 最 终 通 过 HBase Shell 删 除了 表 。 


2.2 ” 必 备 条 件 


下 面 所 描述 的 条 件 并 不 是 所 有 HBase 文 持 的 运行 模式 都 需要 的 。 如 
果 读 者 纯粹 是 出 于 本 地 测试 的 目的 ， 就 只 需要 安装 Java， 如 2.1 市 所 
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2.2.1 硬件 


IRIE TA HBaselE A — i RAR AAR Sas ° SEE, HBaselik tee 
种 不 同 配置 的 硬件 上 运行 。 通 常 的 描述 是 商用 (commodity) 硬件 ， 但 
这 代表 什么 意思 呢 ? 


对 于 初学 者 ， 我 们 在 此 不 讨论 桌面 PC 系统 ， 只 讨论 服务 器 级 别 的 
机 器 。 因 为 HBase 是 Java 编 写 的 ， 所 以 至 少 需 要 支持 当前 的 Java 运 行 时 
环境 。region 服 务 器 的 内 存 主要 服务 于 内 部 数据 结构 ， 例 如 ，memstore 
oe 因此 你 需要 安装 64 位 操作 系统 才能 分 配 和 使 用 大 于 4 GB 的 

FEN] o 


在 实践 中 ， 为 了 能 够 像 MapReduce 一 样 有 效 地 利用 HDFS，HBase 
大 多 是 与 Hadoop 安 装 在 一 起 的 。 这 样 能 很 大 程度 地 减少 对 网 络 IO 的 需 
求 ， 同 时 能 加 快 处 理 速度 。 当 在 同一 服务 器 上 运行 Hadoop 和 HBase 时 , 
最 少 会 有 3 个 Java 进 程 (DataNode ` TaskTracker#llRegionServer) 在 运 
行 ， 而 且 在 执行 MapReduce 作 业 时 ， 进 程 数 还 会 激增 。 要 有 效 地 运行 所 
有 这 些 进 程 ， 需 要 保证 拥有 一 定数 量 的 内 存 、 磁 盘 和 CPU 资源 。 


一 人 因为 在 所 有 已 知 的 产品 系统 中 ，Hadoop 都 是 HBase 
的 后 备 存储 ， 所 以 在 此 假设 读者 已 较 好 地 掌握 了 Hadoop。 如 
果 确 实 未 按 触 过 HBase 和 Hadoop， 建 议 先 从 最 基础 的 Hadoop 
开始 学 习 ， 哪 怕 先 了 解 点 皮毛 ， 这 里 推荐 一 本 Tom White## 
写 的 《Hadoop 权 威 指南 〈 第 2 版 ) 》 供 大 家 参考 。 除 此 之 
外 ， 需 要 建立 正常 工作 的 HDFS 和 MapReduce 集 群 。 


鉴于 大 多 数 操作 系统 都 需要 一 定 的 空 帮 资源 来 保证 工作 更 有 效 ， 
因此 将 可 用 的 内 存 部 给 Java 进 程 是 不 明帝 的 ， 例 如 ， 位 副 WO 绥 冲 区 是 
由 Linux 内 核 维护 的 。HBase 间 接地 利用 了 已 有 的 本 地 人 磁 副 WO， 并 将 进 
re 一 服务 器 ， 使 得 操作 系统 在 维持 目 己 的 块 缓存 时 性 能 
Ý o 


我 们 将 需求 分 为 两 类 : 服务 器 和 网 络 化 。 下 面 首先 探究 的 是 服务 
器 硬件 方面 的 需求 ， 然 后 是 网 络 建立 所 需要 的 条 件 。 


1. 服务 器 


在 HBase 和 Hadoop 中 有 两 种 类 型 的 机 器 : master (HDFS 的 

NameNode、MapReduce 的 JobTracker， 以 及 HBase 的 Master) 和 slave 

(HDFS 的 DataNode、MapReduce 的 TaskTracker， 以 及 HBase 的 
RegionServer) 。 有 可 能 的 话 ， 两 类 机 器 的 硬件 配置 有 所 区 别 会 更 好 ， 
然而 ,为 了 省 事 ， 配 置 相同 的 情况 也 很 普遍 。 实 际 上 master 并 不 需要 大 
存储 空间 ， 因 此 不 需要 挂 载 过 多 的 人 磁盘。 由 于 master 的 重要 性 大 于 
slave， 因 此 master 可 以 通过 元 余 来 提升 硬件 可 用 率 。 必 要 时 我 们 会 解释 
这 两 类 机 器 的 不 同 之 处 。 


由 于 Java 是 在 用 户 空间 (user land) 运行 的 ， 所 以 可 以 在 每 一 个 支 
持 Java 运 行 时 的 操作 系统 上 运行 它 ， 虽 然 有 一 些 备 受 推荐 的 运行 Java 的 
操作 系统 ， 但 是 没有 用 户 干预 时 ，Java 将 无 法 运行 〈 详 情 见 2.2.3 节 ) e 
因此 ， 用 户 可 以 选择 的 硬件 供应 商 有 很 多 ， 甚 至 可 以 上 自己 组 装 硬件 。 
以 下 是 通用 硬件 需求 的 要 求 。 


CPU 


使 用 单 核 CPU 机 器 ， 同 时 运行 3 个 或 者 更 多 的 Java 进 程 和 操作 系统 
的 服务 进程 是 不 合理 的 。 在 生产 系统 中 ， 通 常 采 用 的 是 多 核 处 理 器 2 
o 四 核 的 处 理 需 能 够 满足 需求 ， 但 六 核 鬼 处理 需 更 受 欢 迎 。 大 多 数 硬 
件 文 持 一 个 以 上 的 CPU， 所 以 条 统合 以 使 用 两 个 四 核 CPU 达到 了 八 
核 。 这 样 每 一 个 基本 的 Java 进 程 都 可 以 独立 占有 一 个 核 ， 而 像 Java 垃 圾 
回收 (Garbage Collection, GC) 这 样 的 后 台 任 务 则 可 以 并 行 执行 。 此 
外 还 有 超 线 程 (hyperthreading) ， 它 更 加 大 了 这 种 处 理 优 势 。 


就 CPU 而 言 ，master 机 器 与 slave 机 器 的 规格 应 该 是 一 样 的 。 


双 四 核 CPU，2.0 GHz~2.5 GHz 


双 四 核 CPU，2.0 GHz ~2.5 GHz 
存 


真正 的 问题 是 : 给 单个 进程 分 配 过 多 的 内 存 会 产生 问题 么 ? 在 理 
论 上 不 会 ， 但 实践 证 明 ， 使 用 Java 时 ， 不 应 该 为 一 个 进程 设置 过 多 的 内 
存 。 内 存在 Java 术 语 中 称 为 堆 (heap) ， 会 在 使 用 过 程 中 产生 许多 碎 
片 ， 在 最 坏 的 情况 下 ， 整 个 堆 需要 重 写 一 次 ， 这 与 众所周知 的 磁 强 碎 
片 整理 相似 ， 但 重 写 堆 不 能 在 后 台 运 行 。Java 运 行 时 环境 会 暂停 所 有 进 
程 内 的 逻辑 并 进行 清理 ， 这 可 能 会 导致 不 少 问 题 〈《 稍 后 详细 讨论 ) 。 
设置 的 堆 越 大 ， 这 个 过 程 花 的 时 间 束 越 长 。 进 程 并 不 需要 大 量 的 内 
存 ， 合 适 的 内 存 大 小 可 以 避免 上 述 问 题 ， 但 十 region 服 务 右 和 块 缓存 在 
理论 上 没有 上 限 。 因 此 为 了 避免 上 述 问 题 的 出 现 ， 需 要 根据 用 户 访问 
模式 找到 一 个 平衡 后。 


内 


| 
S 在 写 这 本 书 时 候 ， 一 般 认为 给 region 服 务 器 设置 超 
过 16 GB 的 堆 是 很 危险 的 。 一 旦 发 生 Full 垃 圾 回收 会 造成 很 长 
时 间 的 重 写 内 存 堆 操作 。 这 个 时 候 master 可 能 会 判定 进程 已 
经 死 挥 ， 并 将 其 从 工作 列表 中 移 除 。 


这 种 情况 有 时 候 依 赖 于 使 用 的 JRE， 有 的 JRE 实 现 可 以 在 
垃圾 回收 时 不 阻塞 进程 内 的 工作 线程 。 


表 2-1 展 现 了 一 个 非常 基本 的 内 存 配 置 标准 。 值 得 注意 的 是 ， 这 仅 
仅 是 个 例子 ， 配 置 不 仅仅 高 度 依 赖 集群 的 大 小 和 数据 写 入 量 ， 还 依赖 
于 用 户 的 访问 模式 ， 比 如 是 只 有 交互 式 访问 ， 还 是 交互 式 和 批量 处 理 
混合 使 用 (如 MapReduce) 。 


表 2-1 拥有 800 TB 存储 空间 的 集群 中 每 个 Java 进 程 的 典型 内 存 配置 
每 100 TB 的 数据 或 者 是 每 100 万 个 文件 大 约会 
NameNode 堆 1 GB 的 内 存 


在 内 存 中 重 做 主 NameNode 的 EditLog， 
要 与 NameNode 一 样 


SecondaryNameNode | 8 GB 


JobTracker 2 GB 


TaskTracker 1GB 


HBase RegionServer 和 任务 进程 留 下 足够 的 空间 


大 部 分 可 用 内 存 ， 同 时 为 操作 系统 (RXR 


Task Attempts 


推荐 配置 : master 机 必要 运行 NameNode、SecondaryNameNode、 
JobTracker 和 HBase Master， 推 荐 24 GB 内 存 ; slave 机 需要 运行 
DataNode、TaskTracker 和 HBase RegionServer， 推 荐 24 GB 内 存 及 以 上 
的 配置 。 


aa a 


master 24 GB 


Fa, 
nox 
ae + 
md | 
| _ 


AY 这 里 主要 是 建议 优化 内 存 通道 。 例 如 ， 使 用 双 通 道 
内 存 时 ， 每 台 机 器 应 该 配备 成 对 的 插 档 (DIMM) ; 使 用 三 

通道 内 存 时 ， 每 台 机 器 配备 的 插 模 个 数 应 该 是 3 的 倍数 。 这 

可 能 意味 着 机 器 可 以 用 18 GB (9x2 GB) 内 存 蔡 换 16 GB 
(4x4 GB) 内 存 。 


这 不 仅仅 需要 服务 器 的 主板 文 持 ， 同 时 也 需要 CPU 兼容 
这 种 模式 。 例 如 ， 有 的 CPU 只 兼容 双 通 道内 存 ， 即 使 主板 文 
持 三 通道 模式 ，CPU 也 只 能 在 双 通 道 模式 下 工作 。 


磁盘 


数据 存储 在 slave 机 器 上 ， 因 此 slave 服 务 器 需要 大 量 的 存储 空间 。 
用 户 需 要 根据 主要 是 面向 读 / 写 ， 还 是 面向 数据 加 工 ， 来 平衡 可 用 的 
CPU 内 核 数量 与 磁 弄 数量 的 使 用 。 通 单 情况 下 ， 用 户 应 该 保证 每 个 磁 
副 上 至 少 有 一 个 核 ， 所 以 在 8 核心 服务 右 增 加 6 块 位 盘古 较 优 的 ， 加 入 
更 多 磁盘 可 能 并 不 会 市 来 显著 的 性 能 提升 。 


RAID 还 是 简单 JBOD? 


一 个 常见 的 问题 是 磁盘 如 何 挂 载 到 服务 器 上 “。 这 里 要 
区 别 对 待 master 和 slave。 对 于 slave 来 说 ， 并 不 建议 使 用 
RAID 2 模式 ， 而 是 要 使 用 所 谓 的 JBOD 2 I ° RAIDHE 
单个 磁盘 慢 ， 因 为 RAID 受 管理 开销 和 流水 线 写 能 力 的 限 
制 ， 并 取决 于 RAID 的 等 级 (通常 采用 的 RAID 模 式 是 RAID 
0， 这 种 数据 上 的 并 行 操作 可 以 充分 利用 总 线 的 带宽 ， 显 
著 提 高 磁盘 整体 存 取 性 能 ) ， 但 一 块 磁盘 出 现 故障 会 使 得 
所 有 数据 和 点 不 可 用 。 


对 master 有 点 来 说 ， 使 用 RAID 主 要 是 为 了 保护 关键 性 
的 文件 系统 数据 ， 通 常 的 配置 是 RAID 1+0 或 RAID 0+1 ° 


master 和 slave 一 定 要 使 用 带 RAID 固 件 (RAID 
firmware) 的 磁盘 。 这 类 和 磁 强 与 消费 级 伐 副 的 主要 区 别 
是 ， 一 旦 人 硬件 出 钳 ，RAID 固 件 马 上 失效 ， 因 此 DataNode 
进程 可 以 快速 知道 发 生 了 故障 。 


RES FEM as, GO, ESE TIRES SET! 是 
SATA 还 是 SAS? 一 般 更 推荐 使 用 SATA 驱 动 器 ， 因 为 SATA 比 SAS 更 节 
省 成 本 ， 虽 然 SAS 盘 安全 性 高 于 SATA， 但 一 般 的 软件 策略 中 是 跨 机 架 
数据 元 余 ， 因 此 可 以 放心 地 使 用 SATA 盘 。 实 际 使 用 哪 种 类 型 的 磁盘 驱 
动 器 ， 最 终 取 决 于 负担 得 起 哪 一 种 的 成 本 。 虽 然 3.5 英 寸 的 磁盘 比 2.5 英 
但 考虑 到 服务 器 机 架 的 因素 ， 你 可 能 会 选择 2.5 英 寸 的 


通常 使 用 的 磁盘 大 小 是 1TB， 如 果 有 需要 也 可 以 使 用 2TB 的 磁盘 。 
使 用 6~12 个 配 有 1 TB 或 2 TB 傍 盘 的 高 密度 服务 器 比较 好 ， 有 既 可 以 得 到 
的 存储 容量 ， 又 拥有 足够 CPU 内 核 的 JBOD 模 式 ， 以 获得 较 高 的 磁 
时 带宽 。 


| 
er 4x1 TB SATA, RAID 0+1 (也 可 以 用 2 TB 的 ) 


6x1 TB SATA, JBOD 


IOPS 


0G RAR E E 2M E ETR S RERS (LO 
Operation Per Second, IOPS) 的 重要 指标 。 例 如 ， 一 般 使 
用 4x1 TB 的 磁盘 比较 好 ， 这 种 方式 可 以 使 万 点 的 IOPS 达 到 
400 次 ， 即 400 MB/s 的 传输 吞吐 量 ， 非 常 适合 冷 数据 的 访 
问 需 求 。® 


如 果 有 更 高 的 需求 还 可 以 使 用 8x500 GBA REE, ORE 
每 个 万 点 的 磁盘 吞吐 量 能 够 达到 800IO PS/s， 接 近 千 兆 以 
太 网 的 线路 速率 。 总 之 ， 需 要 结合 具体 需求 并 采用 适量 的 
磁盘 来 实现 目标 。 


DLR 


实际 上 ， 服 务 器 机 架 (chassis) 不 是 至 关 重 要 的 因素 ， 机 架 的 价 
格 虽 然 不 同 ， 但 提供 的 功能 大 体 类 似 。 对 于 通用 服务 器 来 说 ， 一 上 般 情 
况 下 最 好 古 回 避 具 有 专 有 功能 和 远 项 的 特殊 硬件， 这 样 这 些 服 务 紫 整 
可 以 根据 需求 通过 简单 的 组 合 ， 达 到 扩容 集群 容量 的 目的 。 


吕 网 络 而 言 ， 推 荐 使 用 双 端 口 千 兆 以 太 网 卡 ， 即 双 通 道 纯 定 网 
卡 。 如 果 已 经 能 够 支持 万 兆 网 或 者 无 限 带 宽 (InfiniBand) 技术 ， 应 该 
毫 不 犹豫 地 使 用 它 。 


slave 采 用 一 个 电源 供应 器 〈Power Supply Unit, PSU) 就 够 了 ， 但 
master 甩 点 应 该 使 用 元 余 的 PSU， 如 双 PSU。 


从 硬件 部 署 密 度 来 看 ， 机 染 单 元 (简称 U) 越 少 越 好 。 通 常 1U 和 


2U 的 服务 器 部 署 在 19 英 寸 的 机 染 中 。 在 迁 择 机 架 大 小 时 要 考虑 的 是 ， 
能 容纳 多 少 磁 组 以 及 写 们 的 能 产 消 耗 。 通 音 1U 的 服务 融 适 合 挂 载 较 少 


的 磁盘 ， 或 者 为 了 达到 容量 要 求 只 能 用 2.5 英 寸 的 磁 副 。 


mr eee 
ne fsa 单 PSU，1U 或 者 2U 
网 络 


2. oe 


数据 中 心里 ， 服 务 絮 通常 是 挂 载 在 19 英 寸 的 机 架 上 ， 这 种 机 架 能 
容纳 40U 甚 至 更 多 ， 用 户 可 以 使 用 置顶 式 (Top-of-Rack, ToR) 交换 机 
将 40 台 机 器 ( 放 在 半边 机 架 上 ) 连接 在 一 起 (有 些 公 司 使 用 一 个 整体 
机 架 挂 载 80 台 机 器 ， 每 边 40 台 ) 。 如 果 每 台 服 务 器 用 的 都 是 千 兆 网 
卡 ， 那 么 要 确保 ToR 交 换 机 有 足够 快 的 速度 处 理 服务 器 创建 的 吞吐 。 通 
常 交 换 机 的 背 板 不 能 以 线路 速率 处 理 所 有 的 端口 ， 换 句 话说 ， 理 论 上 
承诺 的 实际 达 不 到 。 


交换 机 通常 有 24 或 48 个 端口 ， 配 有 前 面 提 到 的 通道 绑 定 技术 及 双 
端口 网 卡 ， 用 户 需 要 保证 交换 机 连 网 的 规模 足够 大 ， 从 而 能 够 提供 足 
够 的 带宽 。 安 装 40 个 1U 服 务 器 需要 80 个 网 络 端口 ， 所 以 在 实践 中 需要 
设置 多 个 机 架 交 换 机 交错 使 用 ， 然 后 汇总 到 一 个 更 大 的 核心 汇聚 交换 
机 (Core Aggregation Switch, CaS) 。 最 终 得 到 一 个 两 层 (two-tier) 
染 构 ， 由 ToR 交 换 机 分 配 ，CaS 站 聚 。 


尽管 不 能 满足 所 有 的 大 规模 安装 需求 ， 但 我 们 要 知道 这 是 一 种 第 
用 的 设计 模式 。 鉴 于 运 维 是 规划 的 一 部 分 ， 因 此 用 户 需 要 知道 有 多 少 
数据 要 人 存储， 有 多 少 客户 端 并 发 读 写 ， 然 后 计算 出 需要 多 少 台 服务 
a, BURIDR SEE AAR art HET ° 


用 户 通 过 公开 的 邮件 列表 或 其 他 渠道 报告 了 HBase 的 一 些 问题 ， 反 
映 得 比较 多 的 是 ，1/O 性 能 在 批量 插入 大 量 数 据 的 时 候 比 预期 的 要 差 ， 
很 显然 ， 这 是 过 网 问题 导致 鸭 。 而 导致 过 网 问题 的 原因 可 能 是 连 网 配 
置 不 当 或 者 使 用 了 错误 的 网 络 接口 卡 (Network Interface Card, 

NIC) ， 也 可 能 是 服务 器 的 数据 吞吐 量 完全 超出 了 交换 机 的 载荷 。 一 定 
要 仔细 验证 集群 的 每 个 硬件 组 件 ， 从 而 避免 突然 出 现 的 故障 问题 ， 这 
些 问题 本 来 就 可 以 通过 合适 的 人 硬件 配置 训 免 。 


最 后 ， 目 前 Hadoop 和 HBase 的 安全 功能 是 内 置 的 ， 通 常 整个 集群 都 


位 于 目 己 的 网 络 中 ， 因 此 ， 可 以 通过 防火 墙 保护 集群 ， 控 制 客 户 闹 对 
集群 的 请 求 。 


2.2.2 ”软件 


讨论 了 所 需要 的 硬件 ， 也 购买 了 服务 器 ， 现 在 要 讨论 一 下 软件 
了 。 除 了 要 考虑 底层 的 操作 系统 ， 还 要 考虑 操作 系统 挂 载 的 文件 系统 
以 及 各 种 其 他 服务 的 配置 。 


一 一 大 多 数列 出 的 需求 都 不 依赖 于 HBase， 都 是 在 底 
层 、 操 作 层 中 用 到 的 。 管 理 员 可 以 在 应 用 过 程 中 验证 该 问 


题 。 


1. 操作 系统 


推荐 操作 系统 (OS) 是 一 件 非 常 坏 手 的 事情 ， 尤 其 是 在 开源 领域 
中 。 在 过 去 的 两 二 年 里 ， 好 像 HBase 偏 好 使 用 Linux 系 统 工作 ， 事 实 
上 ，Hadoop 与 HBase 本 来 就 是 基于 Linux 系 统 或 者 Unix 系 统 开 发 的 ， 还 
可 以 在 其 他 的 类 Unix 系 统 上 运行 。 不 过 ， 用 户 可 以 在 支持 Java 的 任何 一 
个 OS 中 运行 Hadoop 和 HBase， 例 如 ，Windows， 不 过 Hadoop 和 HBase 的 
测试 只 能 在 类 Unix 系 统 上 进行 ， 原因 古 局 动 与 天 闭 等 管理 脚本 都 是 由 
Linux 或 Unix 命 令 行 Shell 提 供 的 。 


Unix 与 类 Unix 系 统 的 区 别 古 开源 免费 与 闭 源 收费。 此 外 ， 这 两 类 
系统 部 能 用 ， 具 体 用 哪个 整 看 用 户 所 在 公司 的 具体 规定 了 。 以 下 是 可 
以 文 持 HBase 集 群 的 操作 系统 列表 。 


CentOS 


CentOS 是 一 个 社区 文 持 的 免费 软件 操作 系统 ， 基 于 红 帆 的 企业 版 
Linux 操 作 系 统 (Red Hat Enterprise Linux, RHEL) 改造 而 来 。CentOS 
利用 红 幅 为 其 自身 企业 提供 的 源 代码 包 ， 创 建 了 相应 CentOS 的 各 个 音 
件 ， 从 而 镜像 了 RHEL 的 功能 、 特 性 并 按 等 级 发 布 包 。 类 似 于 RHEL， 
它 提 供 了 RPM 格式 的 软件 包 。 


由 于 CentOS 也 侧重 于 企业 应 用 ， 所 以 版 本 更 新 不 会 太 快 。 它 的 目 
标 是 应 用 于 大 型 基础 设施 ， 因 此 不 必 考 虑 短期 的 小 增 量 包 更 新 。 


Fedora 


Fedora 也 是 由 一 个 社区 支持 的 ， 红 帽 公司 赞助 的 免费 开源 操作 系 
统 。 但 与 RHEL 和 CentOS 相 比 ，Fedora 是 一 个 全 新 的 技术 平台 ， 致 力 于 
推进 新 的 思路 和 特性 。 因 此 ， 与 面向 企业 的 产品 相 比 ，Fedora 的 发 布 周 
期 更 短 ， 平 均 每 13 个 月 就 会 更 新 一 次 版 本 。 


事实 上 ， 它 是 针对 工作 站 设计 的 ， 经 常会 利用 到 Fedora 的 一 些 新 特 
性 ， 不 过 流行 程度 与 面向 桌面 的 操作 系统 © HLCM o EE p 
使 用 Fedora 要 考虑 到 单一 版 本 生命 周期 短 的 因素 ， 还 需要 考虑 使 用 一 个 
稳定 版 本 ， 而 不 使 用 最 新 发 布 的 Fedora 版 本 ， 同 时 依靠 社区 的 力量 修复 


问题 。 


Debian 


Debian 古 男 一 个 基于 Linux 内 核 的 操作 系统 ， 拥 有 人 免费 开源 的 软件 
FARE ° Debian ATRM ARAM aA, (eDebianth X KIF 
级 更 新 策略 相对 保守 ， 所 有 包 文 件 都 需要 经 过 充分 的 测试 ， 且 被 视 为 
稳定 后 ， 才 会 发 布 Debian 的 新 版 本 。 


与 其 他 操作 系统 不 同 ，Debian 虽 然 没 有 商业 实体 文 持 但 是 却 有 独 
立 的 项 目 规 范 。 它 有 一 套 独立 的 安装 包 规 则 ， 并 且 只 支持 后 级 名 为 
ee ee ee ne 
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Ubuntu 


Ubuntu 是 一 个 基于 Debian 的 Linux 分 支 系统 。Ubuntu 是 一 款 由 
Canonical 公 司 提供 支持 的 免费 并 开源 的 软件 ，Canonical 公 司 的 目的 并 
不 是 销售 软件 而 是 销售 Ubuntu 服务 ， 并 提供 技术 支持 。 


Ubuntu 的 发 布 周期 长 短 结合 ， 桌 面 版 本 采用 3 年 的 长 周期 (Long- 
Term Support, LTS) 更 新 策略 ， 服 务 器 版 本 采用 5 年 的 长 周期 更 新 策 
上 略 。Ubuntu 的 安装 包 虽 然 是 DEB 格 式 的 ， 但 却 是 基于 Debian 的 不 稳定 
Tx: 在 某 种 意义 上 看 ，Ubuntu 与 Debian 的 关系 和 Fedora 与 红 帽 的 关系 
类 似 。 事 实 上， 由 于 Ubuntu 天 键 模块 的 更 新 过 于 频 索 ， 所 以 Ubuntu 很 
难 被 用 作 服 务 右 探 作 系 统 。 


Solaris 


Solaris 是 由 Oracle 公 司 提供 的 有 限 可 用 平台 。 它 的 前 映 是 Unix V4 
版 本 ， 因 此 它 与 其 他 的 操作 系统 有 很 大 的 不 同 。Solaris 中 部 分 源 代码 是 
开源 的 ， 其 余 则 是 闭 源 的 。Solaris 是 一 个 商业 化 产品 ， 需 要 经 过 购买 才 
能 使 用 ， 每 个 购买 到 的 Solaris 版 本 都 能 够 得 到 10 年 至 12 年 的 商业 支持 。 


Red Hat Enterprise Linux 

简称 RHEL，Red HatLinux 发 行 版 的 目的 在 于 文 持 商 业 和 企业 级 用 
Sees 官方 还 提供 了 产品 培训 和 产品 认证 计划 
许可 证 。 


RHEL 的 安装 包 被 称 为 RPM (Red Hat Package Manager， 红 帽 软 件 
包 管 理 器 ) ， 由 .rpm 格式 的 文件 和 自身 的 包 管理 右 组 成 。 


RHEL 提 供 了 非常 长 的 商业 支持 周期 ， 大 概 有 7~10 年 。 


一 一 人 当 用 户 需要 选择 服务 器 操作 系统 时 需要 考虑 现 有 的 
基础 设施 ， 并 选择 一 个 与 现 有 设施 相 适 应 的 操作 系统 。 


我 们 推荐 大 部 分 运行 HBase 的 生产 系统 使 用 CentOS 或 
RHEL ° 


2. 文件 系统 


与 选择 操作 系统 一 样 ， 对 于 用 户 来 说 ， 人 磁盘 文件 系统 也 有 多 种 选 
择 。 但 是 ， 实 际 上 大 量 缺 乏 公 开 可 用 的 经 验 数 据 用 于 比较 HBase 采 用 不 
同文 件 系 统 的 效 末 。 比 较 间 见 的 文件 系统 有 ext3、ext4 以 及 XFS， 用 户 
也 可 以 使 用 其 他 的 文件 系统 。 一 些 HBase 的 用 户 则 反馈 了 他 们 针对 其 中 
一 些 文件 系统 的 研究 结果 ， 但 是 在 生产 环境 中 使 用 这 些 文件 系统 需要 
经 过 足够 的 测试 。 以 下 是 较 冲 用 的 文件 系统 上 的 一 些 注意 事项 。 


| 上 
一 需要 注意 这 里 提 到 的 文件 系统 是 HDFS 的 数据 节点 
依赖 的 本 地 文件 系统 ， 而 HBase 是 直接 与 HDFS 打 交道 的 。 


ext3 


Linux 操 作 系 统 中 使 用 最 普遍 的 文件 系统 是 ext3 (详情 见 链接 
http://en.wikipedia.org/wiki/Ext3 ) 。 它 已 经 被 证 明 是 稳定 可 靠 的 文件 系 
统 ， 这 意味 着 生产 机 器 中 采用 ext3 为 本 地 文件 系统 是 一 个 相对 安全 的 选 
择 。 目 从 2001 年 ext3 成 为 Liunx 一 部 分 以 来 ，ext3 一 直 在 稳步 提升 ， 并 且 
多 年 来 一 直 是 Linux 系 统 的 默认 文件 系统 。 


用 户 在 使 用 ext3 时 需要 切记 以 下 几 点 优化 。 首 先 用 户 在 挂 载 文件 系 
统 时 应 该 设置 hoatime 属性 来 禁止 记录 文件 访问 时 间 惟 以 城 少 内 核 的 
管理 开销 。HBase 不 需要 记录 每 个 文件 的 访问 时 间 ， 并 且 禁 用 这 个 选项 
可 以 大 幅度 提高 磁盘 的 读 取 性 能 。 


ww 上 
一 禁止 记录 最 近 一 次 文件 访问 时 间 戳 能 够 提升 性 能 ， 
并 且 是 推荐 的 配置 。 挂 载 选 项 通常 配置 在 /etcfstab 文件 中 。 
下 面 一 行 是 关于 Linux 设 置 noatime 选项 的 例子 : 


/dev/sddi /data ext3 defaults,noatime © 0 


请 注意 上 述 描述 页 包含 了 nodiratime 的 配置 选项 。 


男 一 个 优化 是 为 了 更 好 地 利用 ext3 提 供 的 磁 副 空间 。 默 认 情 况 下 ， 
做 盘 每 个 块 都 为 天 键 系统 进程 保留 了 一 个 固定 的 鹤 间 ， 以 保证 在 磁盘 
存储 已 满 的 情况 下 不 影响 关键 进程 的 使 用 。 这 个 功能 对 关键 磁盘 比较 
有 用 ， 比 如 操作 系统 依赖 的 磁盘 ， 但 这 个 功能 对 于 数据 存储 盘 来 说 几 
乎 无 用 ， 并 且 对 一 个 大 型 集群 中 的 可 用 存储 空间 造成 了 极 大 的 影响 。 


yr 
一 人 用 户 在 ext3 中 可 以 使 用 Linux 提 供 的 命令 行 工具 
tune2fs 减少 保留 块 的 数量 以 获取 更 多 的 可 用 磁盘 空间 。 
默认 情况 下 每 块 磁盘 的 保留 块 数量 是 5%， 但 可 以 安全 地 减少 
到 1% (甚至 0%) 。 以 下 是 所 需 使 用 的 命令 : 


tune2fs -m 1 < device-name> 


用 户 需 要 使 用 被 处 理 的 磁盘 替换 <device-name> fill 
如 /dev/sdd1。 所 有 数据 存储 盘 上 设置 -m 1 定义 保留 块 的 
比例 ， 例 如 ， 使 用 -m 0 就 可 以 设置 保留 块 数量 为 0 。 


切记 : 这 种 设置 只 适用 于 数据 存储 磁盘 ， 不 适用 于 操作 
系统 依赖 的 和 磁盘， 更 不 适用 于 master 世 点 上 的 任何 磁盘 ! 


Yahoo! 曾 公 开 表 示 ext3 是 它们 的 大 型 Hadoop 集 群 的 首选 文件 系 
统 。 这 说 明 ext3 虽 然 不 是 运 今 为 止 最 主流 最 新 的 文件 系统 ， 但 它 在 大 型 
集群 中 表现 很 好 。 事 实 上 ， 用 户 使 用 ext3 的 过 程 中 ， 其 他 级 别 的 栈 的 极 
限 会 比 VO 极 限 更 先 到 达 。 


ext3 的 最 大 缺点 是 服务 器 启动 过 程 需要 消耗 很 多 的 时 间 。ext3 的 格 
式 化 磁盘 操作 会 花费 数 分 钟 时 间 ， 这 对 机 画 中 定期 同上 旋转 磁 到 可 能 
会 造成 不 必要 的 麻 烦 一 一 尽管 这 不 是 闻 用 的 操作 。 


ext4 


ext3 的 下 一 代 是 ext4 〈 详 见 链接 hitp://en.wikipedia.org/wiki/Ext4 
) ，ext3 与 ext4 最 初 基于 相同 的 代码 ， 但 ext4 随 后 被 移动 到 独立 的 项 
目 。2008 年 以 后 ext4 正 式 成 为 官方 Linux 内 核 的 一 部 分 。ext4 只 经 过 了 几 
年 光景 就 达到 了 这 个 程度 ， 足 以 证 明 其 稳定 性 和 可 靠 性 。 不 仅 如 此 ， 
Google 已 经 宣布 2 把 其 存储 基础 设施 从 ext2 升 级 到 ext4， 这 可 以 认为 是 
一 个 极其 有 震撼 力 的 消息 ， 并 表明 了 ext 系 列 文件 系统 (ext3、ext4 等 ) 
可 以 在 不 转 存 文件 的 情况 下 升级 的 优势 。 然 而 ， 选 择 其 他 文件 系统 如 
XFS 则 做 不 到 这 种 升级 。 


从 性 能 方面 来 说 ，ext4 打 败 了 ext3 并 接近 了 高 性 能 文件 系统 XFS， 
同时 还 拥有 很 多 高 级 特性 ， 例 如 ， 能 够 允许 单 文件 达到 16 TB 的 大 小 


Ht, LEB (101 FT) 的 存储 空间 。 


ext4 中 一 个 更 重要 的 特性 是 延迟 分 配 (delayed allocation) ， 我 们 
建议 用 户 在 Hadoop 和 HBase 中 将 其 关闭 。 采 用 延迟 分 配 策略 的 数据 会 保 
留 在 内 存 中 ， 并 会 在 内 存 中 保留 若干 数据 块 ， 直 到 数据 最 终 被 刷 写 到 
磁 型 。 这 个 特性 会 帮助 块 中 的 文件 保持 连续 ， 并 在 某 一 时 刻 整 体 写 入 
到 人 磁盘 的 连续 块 中 。 这 个 特性 减少 了 磁盘 人 雄 片 并 提高 了 文件 读 取 性 
能 。 但 另 一 方面 ， 它 增加 了 在 服务 器 前 溃 时 数据 丢失 的 概率 。 


XFS 


Linux 在 同一 时 间 段 开始 文 持 ext3 与 XFS (详情 见 链接 
http://en.wikipedia.org/wiki/Xfs ) 。XFS 最 初 是 在 1993 年 由 Silicon 
Graphics 公 司 研 发 的 ， 迄 今 为 止 大 多 数 Linux 已 经 文 持 XFS 。 


它 与 ext4 功 能 类 似 ， 例 如 ， 分 别 有 extents (分 组 存储 块 ， 减 少 每 个 
文件 需要 保持 的 块 数 ) 以 及 上 面 提 到 的 延迟 分 配 。 


XFS 一 个 很 大 的 优势 是 ， 它 引导 服务 如 时 格式 化 非 第 快 ， 这 样 可 以 
有 效 地 减少 使 用 磁 强 组 建新 服务 器 的 时 间 。 


男 一 方面 来 说 ，XFS 也 有 缺 点 。 在 XFS 的 设计 中 有 一 个 众所周知 的 
缺 操 ， 它 的 一 些 操 作 率 涉 到 了 元 数据 的 变更 ， 比 如 删除 大 量 文件 的 操 
作 。 不 过 开发 人 员 已 经 开始 着手 解决 这 个 问题 ， 并 且 提 交 了 一 些 修 
复 。 使 用 HBase 时 一 定 要 仔细 核实 可 能 会 出 问题 的 关键 点 ， 否 则 极 有 可 
能 影响 使 用 。 不 过 HBase 需 要 操作 的 文件 一 般 少 而 大 ， 因 此 用 户 在 XFS 
上 不 会 受到 太 多 的 限制 。 


ZFS 


ZFS (详情 见 http://en.wikipedia.org/wiki/ZFS ) 是 由 Sun 公 司 研 发 并 
在 2005 年 推出 的 文件 系统 。 这 个 名 字 是 Zettabyte File System 的 缩写 ， 
为 它 有 能 力 存储 228 ZB (大 概 是 10*1 字 节 ) 。 


ZFS 主 要 航 Solaris 操 作 系统 文 持 ， 不 过 ZFS 拥 有 非常 适合 HBase 心 
用 场景 的 高 级 功能 。 它 文 持 内 置 的 压缩 ， 可 以 替换 HBase 中 以 插件 形式 
提供 的 压缩 功能 。 


选择 文件 系统 与 选择 操作 系统 一 样 都 需要 适合 用 户 现 有 的 基础 设 
施 。 不 经 过 测 弃 和 比较 ， 仅 靠 单 纯 的 数字 ， 有 是 很 难 做 出 选择 的 。 如 采 
用 户 要 选择 的 话 ， 我 们 建议 选择 比较 新 的 文件 系统 ， 如 ext4 或 XFS， 它 
们 迟早 会 取代 ext3， 并 且 比 其 他 旧版 本 的 文件 系统 更 容易 扩展 。 


我们 不 建议 在 一 台 服务 器 上 安装 不 同 的 文件 系统 。 
内 核 可 能 需要 分 割 缓冲 区 来 文 持 不 同 的 文件 系统 ， 进 而 影响 
性 能 ， 据 报道 这 样 做 可 能 会 对 某 些 操作 系统 有 破坏 性 的 性 能 
影 呆 。 如 果 你 已 经 挂 载 了 混合 文件 系统 ， 请 务必 仔细 测试 这 


个 问题 。 


3. Java 


不 得 不 提 的 是 Java! 需要 Java 才 能 运行 HBase，Java 1.6 以 及 更 高 的 
版 本 才能 很 好 地 支持 HBase。 最 佳 的 选择 就 是 使 用 Oracle 公 司 推荐 的 版 
本 (原来 是 Sun 公 司 ， 后 来 Oracle 收 购 了 Sun 公 司 ) ， 详 情 见 链接 


http:/www.java.com/download/ ° 


用 户 应 该 确保 Java 二 进 制 文件 可 执行 ， 并 且 可 执行 的 类 库 日 录 中 能 
找到 这 些 文 件 。 在 命令 行 中 输入 java -version 可 以 获取 已 安装 的 
Java 版 本 信息 ， 同 时 可 以 确认 安装 是 否 正 常 。 例 如 ， 执 行 java - 
version 可 以 得 到 正常 输出 "1.6.0_22"。 通 常 ， 用 户 使 用 最 新 的 
Java 版 本 时 会 碰 到 一 些 意 想不到 的 问题 (例如 ，1.6.0_18 版 本 存在 JVM 
随机 毅 溃 的 问题 ) ， 因 此 用 户 最 好 党 试 一 个 稍 旧 的 版 本 。 


如 果 HBase 警 告 无 法 找到 可 执行 的 Java 安 装 路 径 〈 见 例 2.1) 就 需要 
在 conf/hbase-env.sh 文件 中 编辑 JAVA HOME 这 一 行 ， 设置 正确 的 Java 
安装 路 径 。 


例 2.1 HBase 启 动 时 无 法 找到 可 执行 的 Java 安 装 路 径 ， am 


Error: JAVA_HOME is not set and Java could not be found 


Please download the latest Sun JDK from the Sun Java web site 


> http://java.sun.com/javase/downloads/ 


HBase requires Java 1.6 or later. 


< 
| 
| 
| 
| 


| NOTE: This script will find Sun Java whether you install using 
the | 
binary or the RPM based installer. 


一 一 提供 的 脚本 会 在 系统 的 默认 类 库存 放 目录 寻找 
Java， 所 以 大 部 分 情况 下 它 都 能 自动 找到 系统 安装 的 Java。 
如 果 没 有 找到 已 安装 的 Java 运 行 时 环境 ， 则 极 有 可 能 是 没有 
安 闭 Java 运行 时 环境 。 此 时 ， 就 要 从 上 述 的 下 载 链接 下 载 
Java 安 装 程 序 ， 并 阅读 操作 系统 手册 学 习 如 何 安装 Java 。 


4. Hadoop 


目前 HBase 只 能 依赖 特定 的 Hadoop 版 本 ， 其 中 的 主要 原因 之 一 是 
HBase 与 Hadoop 之 间 的 远程 过 程 调 用 (Remote Procedure Call, RPC) 


API, RPCH EMAL, FFARR SA A ee, H 
微 的 差异 就 可 能 导致 通信 失败 。 


当前 HBase 仅 仅 依 赖 Hadoop 0.20.x 系 列 ( 
http://hadoop.apache.org/common/release.html ) ， 而 不 能 运行 在 Hadoop 
0.21.x 和 0.22.x 系 列 上 。 运 行 在 不 文 持 sync 功 能 的 HDFS 上 ，HBase 可 能 
会 在 灾难 性 场景 中 丢失 数据 。Hadoop 0.20.2 与 Hadoop 0.20.203.0 并 不 支 
持 这 个 功能 ， 只 有 分 支 branch-0.20-append 支 持 该 功能 。® 目前 为 止 官 
方 所 有 发 布 版 本 都 不 是 从 这 个 分 广发 展 而 来 的 ， 因 此 最 好 直接 使 用 
branch-0.20-append 分 支 。 访 问 Hadoop How To Release ( 
http://wiki.apache.org/hadoop/HorToRelease ) 以 获得 如 何 编译 Hadoop 工 
程 的 信息 。 @ 


男 一 种 选择 是 使 用 已 经 打 了 对 应 补丁 的 Hadoop 工 程 ， 例 如 用 户 可 
以 使 用 Cloudera 的 CDH3 版 本 (http://archire.cloudera.com/docs/) ° 
CDH 已 经 打 入 了 0.20-append 中 增加 持久 化 sync 功 能 的 补丁 。 更 多 细 方 
见 附录 DD 中 天 于 Cloudera 的 内 容 。 


由 于 HBase 依 赖 于 Hadoop， 它 要 求 Hadoop 的 JAR 必 须 部 署 在 HBase 
的 libp 目录 下 。 默 认 依赖 的 Hadoop 的 JAR 是 从 Apache branch-0.20-append 
这 个 分 支 编 译 出 来 的 。 天 键 之 处 在 于 HBase 使 用 的 Hadoop 版 本 必须 与 奔 
层 Hadoop 集 群 上 使 用 的 Hadoop 版 本 一 致 ， 使 用 Hadoop 集 群 正在 运行 的 
JAR (hadoop-xyz.jar ) 蔡 换 HBase 的 lib 目录 中 依赖 的 Hadoop 的 JAR 可 
以 避免 版 本 不 匹配 问题 ， 此 外 必须 确认 集群 中 所 有 的 节点 都 需要 更 新 
为 一 样 的 JAR， 否 则 版 本 不 匹配 问题 会 造成 集群 无 法 局 动 或 假死 现象 。 
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© HBase 类 库 中 默认 Hadoop 的 JAR 只 能 在 单机 模式 中 
EHe 


Fy — PEF Hadoop t FF 1H H HBase # SRy HadoopH JARI D), 
但 是 这 种 方式 没有 经 过 广泛 的 测试 ， 用 户 的 实际 使 用 情况 可 能 不 同 。 


ER 

| 

a HBase 能 够 运行 在 任意 追加 了 安全 功能 的 Hadoop 
0.20.x 系 列 上 一 一 例如 CDH3 一 一 只 要 按照 以 上 的 步骤 替换 


Hadoop 的 JAR 为 附带 安全 版 本 的 HBase 就 可 以 了 。 


5. SSH 


如 果 用 户 需 要 通过 脚本 来 管理 Hadoop 与 HBase 进 程 必须 要 安装 ssh 
并 运行 sshd 。 常 用 的 并 可 以 提供 这 些 命 令 的 软件 包 是 OpenSSH ， 详 情 
TL http:/www.openssh.com/。 但 是 ， 首 先 请 查看 你 的 操作 系统 ， 它 很 可 
能 已 经 提供 了 二 进 制程 序 的 安装 功能 ， 且 不 需要 重新 编译 。 在 Ubuntu 
工作 站 可 以 这 样 使 用 : 


$ sudo apt-get install openssh-client 


在 服务 右上 还 应 该 安 洲 与 之 匹配 的 服务 如 软件 包 : 


$ sudo apt-get install openssh-server 


用 户 必须 能 够 通过 密码 登录 ， 并 ssh 跳 转 到 所 有 市 点 ， 包 括 本 地 节 


态 。ssh 和 需要 有 一 个 公共 密 钥 一 一 要 么 是 用 户 已 经 在 使 用 的 ( 见 home 目 
录 中 的 .ssh 目 录 ) 或 者 新 生成 一 个 一 一 每 个 服务 器 上 都 需要 添加 用 户 公 
共 密 钥 ， 这 就 可 以 让 脚本 可 以 没有 阻碍 地 访问 任意 一 人 台 远 程 服务 器 。 


wW j; 
一 一 HBase 提 供 的 Shell 脚 本 需要 通过 SSH 将 命令 发 送 到 
集群 中 的 每 个 服务 器 中 并 执行 ， 因 此 强烈 建议 不 要 使 用 简单 
的 密码 验证 ， 而 应 该 使 用 公共 密 钥 认证 ! 


当 用 户 创建 密 钥 对 时 ， 同 时 应 该 创建 一 个 口令 以 保护 私 
铀 。 每 一 个 命令 的 口令 发 都 需要 发 送 到 远程 服务 器 中 ， 为 了 
避免 麻烦 建议 使 用 ssh-agent， 它 是 一 个 SSH 助 手 ， 能 够 帮助 
用 户 只 输入 一 次 冤 码 残 可 以 连续 处 理 请 求 。 


理想 的 情况 下 ， 用 户 还 可 以 使 用 内 置 的 代理 转发 (agent 


forwarding) 命令 ， 它 可 以 帮助 用 户 从 集群 中 的 节点 登录 到 
其 他 远程 服务 器 。 


6. 域名 服务 


HBase 使 用 本 地 域名 汇报 IP 地 址 。 正 向 与 反 疝 DNS (Domain Name 
Service， 域 名 服务 ) 均 可 以 工作 ， 用 户 可 以 通过 以 下 命令 验证 正 辐 
DNS 的 正确 性 : 


$ ping -c 1 $(hostname) 


用 户 需 要 确保 服务 器 使 用 了 公共 IP 地 址 ， 而 不 是 环 路 地 址 
127.0.0.1°。 出 现 这 种 情况 的 典型 原因 是 /etc/hosts 文 件 配置 不 正确 ， 其 中 
包含 了 计算 机 域名 到 环 路 地 址 的 映射。 


如 果 用 户 的 服务 器 有 和 多 个 接口 ，HBase 将 使 用 主要 接口 解析 域名 。 
如 琳 这 些 不 够 用 ， 用 户 可 以 通过 设置 


hbase.regionserver.dns.interface ( 见 2.6 节 如 何 配置 参数 的 
AVA) 指出 主 接口 ， 但 这 样 做 的 前 提 是 集群 内 的 配置 必须 是 一 致 的 ， 
且 所 有 主机 要 有 相同 的 网 络 接口 配置 。 


另 一 种 方法 是 设置 hbase ,regionserver ,dns,nameserver 


以 选择 与 系统 默认 配置 不 同 的 域名 服务 器 。 
7. 同步 时 间 


集群 中 节点 的 时 间 必 须 是 一 致 的 ， 稍 微 有 一 点 时 间 偶 送 是 可 以 容 
妨 的 ， 但 是 偏差 较 多 会 产生 一 些 奇怪 的 行为 ， 仪 仅 一 分 钟 的 偏差 就 有 
可 能 使 集群 产生 莫名其妙 的 行为 。 所 以 ， 用 户 需要 在 集群 中 运行 NTP 

( http://en.wikipedia.org/wiki/Network_Time_Protocol ) 或 同等 功能 的 应 
用 来 同步 集群 的 时 间 。 


如 琳 在 运行 正 党 的 集群 中 读 取 数据 时 发 生 了 一 些 奇 怪 的 行为 ， 请 
检查 下 集群 的 系统 时 间 ! 
8. 文件 句柄 和 进程 限制 


HBase 是 数据 库 ， 它 会 同时 使 用 很 多 文件 。 在 Unix 或 其 他 类 Unix 系 
统 中 ， 默 认 的 ulLimit-n 是 1024， 但 这 个 值 这 不 够 。 任 何 大 量 的 加 载 
操作 都 会 导致 显而易见 的 VO 异常 ;java.io.IOException: Too 
many open files 。 还 有 如 下 类 似 的 异常 信息 : 


2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: 
Exception 
in createBlockOutputStream java.io.EOFException 


2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: 
Abandoning 
block blk_-6935524980745310745_ 1391901 
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所 有 错误 信息 都 会 被 记录 在 日 志文 件 中 。 详 情 见 
12.5.2 广 ， 该 市 介绍 了 如 何 分 析 这 些 日 志 内 容 。 


用 户 需 要 改变 文件 描述 符 的 数量 上 限 ， 将 上限 设 置 为 超过 10000 的 
数字 。 要 清楚 这 个 参数 是 运行 HBase 的 操作 系统 参数 ， 而 不 是 HBase 的 
配置 。 此 外 ， 一 个 常见 的 错误 是 管理 员 为 特定 的 用 户 增加 了 文件 描述 
符 ， 但 HBase 却 是 用 其 他 账户 运行 的 。 
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S 用 户 可 以 大 致 估算 所 需 的 文件 句柄 数 ， 如 下 所 示 : 
每 个 列 族 至 少 有 一 个 存储 文件 ， 一 个 已 加 载 的 region 可 能 

多 达 5 或 6 个 文件 ， 且 平均 每 个 列 族 有 2 或 3 个 存储 文件 。 为 了 
确定 所 需 的 文件 句柄 数 ， 用 列 族 数 乘 以 每 个 region 服 务 器 中 
region 的 数量 ， 例 如 ， 每 个 region 有 3 个 列 族 ， 每 个 region 服 务 
器 有 100 个 region， 不 算 打 开 的 JAR 文 件 、 配 置 文件 、CRC32 
文件 等 ，JVM 将 打开 3 x 3 x 100 =900 个 文件 。 运 行 lsof -p 
REGIONSERVER_PID 能 够 看 到 准确 的 数字 。 


HBase 在 它 的 日 志 第 一 行 打印 了 ulimit 信 息 ， 因 此 要 确保 打印 的 信 
已 是 正确 的 。”12.5.2 一 市 会 介绍 起 样 在 日 志 中 查找 此 类 关键 信息 ， 这 
些 信息 可 以 帮助 用 户 发 现 和 解决 HBase 的 安 丢 问题。 


用 户 还 需要 编辑 /etc/sysctl.conf ， 并 调整 fs .file-max 的 值 。 有 
关 的 详细 信息 请 参考 Server Fault 的 这 篇 文章 


http://serverfault.com/questions/165316/how-to-configure-linux-file- 
descriptor-limit-with-fs-file-max-and-ulimit / ° 


例子 : 在 Ubuntu 上 设置 文件 句柄 


如 果 在 Ubuntu 下 ， 你 需要 做 以 下 更 改 : 在 文 
件 /etc/security/limits.conf 中 添加 这 样 一 行 : 


hadoop - nofile 32768 


用 户 应 该 使 用 hadoop 账号 运行 Hadoop 和 HBase， 如 
采用 户 使 用 单独 的 账号 运行 还 需要 设置 两 个 参数 ， 其 中 一 
个 参数 需要 在 每 个 账号 中 都 设置 。 在 文 
件 /etc/pam.d/common-session 的 最 后 一 行 添 加 : 


session required pam_limits.so 


否则 ，/etc/security/limits.conf 中 的 变化 不 会 生效 。 


男 外 切记 不 要 起 记 重 新 登录 以 便 更 改 及 时 生效 ! 


用 户 可 以 在 配置 文件 /etc/security/limits.conf 中 设置 nproc 值 以 调整 
文件 可 以 被 引用 的 进程 数 上 限 。 数 值 设 置 较 小 会 引起 
OutOfMemoryError 异常 ， 这 会 导致 Java 进 程 直接 退出 。 文 件 句柄 是 
pe cee 用 户 需 要 在 运行 进程 时 着 重 确认 当前 账号 下 的 此 参 


9. DataNode 处 理 线程 数 


HDFS 的 DataNode 会 设置 服务 时 可 人 处理 的 文件 数 上 限 ， 这 个 参数 叫 
做 xcievers。 在 加 载 前 ， 用 户 必须 确保 拥有 Hadoop 的 配置 文件 
conf/hdfs-site.xml ， 且 设置 xcievers 参数 至 少 为 以 下 数值 : 


< property> 


< name>dfs.datanode.max.xcievers< /name> 
< value>4096< /value> 
< /property> 
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修改 了 配置 后 需要 重启 HDFS。 


10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block 
b1k_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io. 
IOException: 


No live nodes contain current block. Will get new block 
locations from 
namenode and retry... 


10. 交换 区 


用 户 为 了 避免 运行 时 发 生 内 存 洲 出 ， 比 较 好 的 方式 是 给 操作 系统 
的 进程 预 留 足 够 的 内 存 ， 并 且 JVM 堆 大 小 设置 不 要 太 大 。 一 旦 使 用 内 
存 接近 最 大 可 用 物理 内 存 ， 操 作 系 统 会 开始 使 用 交换 区 (swap) , i 
常 是 机 器 磁 强 中 独立 的 分 区 ， 此 时 内 存 会 重新 分 配 。 


交换 区 一 一 在 工作 站 上 或 许 古 好 事 一 一 但 是 在 服务 右上 已 经 逐渐 
地 被 蔡 止 了 。 因 为 一 旦 服务 右 开 始 使 用 交换 区 ， 整 体 的 性 能 束 会 显著 
降低 ， 用 户 甚 至 可 能 无 法 登录 系统 ， 因 为 远程 访问 (如 SSHD) 在 这 个 
过 程 中 会 被 挂 起 。 


HBase 需 要 保证 CPU 周期 ， 并 且 需 要 遵守 一 定 的 租约 。 例 如 ， 
HBase 需 要 刷新 ZooKeeper 会 话 ， 一 旦 服务 器 发 生 交 换 ，HBase 服 务 器 就 
无 法 与 ZooKeeper 服 务 絮 交换 信息 ，ZooKeeper 服 务 会 认为 这 个 会 话 已 
经 超时 并 失效 ， 即 租约 换 效 。 这 种 情况 会 导致 这 些 服务 器 上 部 署 的 
een 如 条 集群 遇 到 额外 的 压力 也 会 引发 

问题 。 


更 糟糕 的 是 ， 服 务 器 在 交换 过 程 中 被 唤醒 ， 而 此 时 master 节 点 认为 
当前 节点 已 经 死 掉 了 ， 于 是 region 服 务 器 仿佛 什么 事情 也 没有 发 生 过 ， 
并 再 次 同 master 汇 报信 息 ， 这 时 region 服 务 如 会 收 到 master 返 回 的 
YouAreDeadException 异常 ， 并 认定 自己 需要 进入 死亡 状态 ， 并 终 
止 自身 的 进程 。 此 外 还 有 不 少 隐 含 的 问题 ， 例 如 ， 挂 起 状态 的 更 新 ， 
关于 这 一 点 后 面 有 详细 讨论 。 以 上 足以 说 明 这 并 不 是 件 好 事 。 


用 户 可 以 通过 编辑 配置 文件 /etc/sysctl.conf 加 入 下 面 命令 行 来 对 
Linux 和 类 Unix 系 统 服 务 器 交换 区 的 相关 参数 进行 调整 : 


vm. swappiness=5 


用 户 可 以 尝试 将 这 个 值 设 置 为 0 或 5， 以 减少 使 用 交换 空间 的 概 


一 些 激进 的 系统 管理 员 已 经 完全 关闭 了 交换 区 ( 见 Linux 上 的 
swappoff) ， 主 要 原因 是 他 们 希望 系统 能 够 “撞墙 似 * 的 处 理 ， 而 不 必 处 


理 交 换 引 发 的 问题 。 用 户 可 以 选择 自己 习惯 的 方案 ， 但 要 时 刻 关 注 这 


个 问题 。 


最 终 ， 重 局 服务 句 束 可 以 使 配置 生效 : 


但 是 ， 这 个 配置 也 许 不 能 完全 满足 需求 。 这 显然 是 在 类 Unix 系 统 
中 才 有 的 问题 ， 用 户 在 使 用 时 最 好 要 调整 操作 系统 。 


11. Windows 


HBase 很 少 在 Windows 上 进行 测试 ， 因 此 不 建议 将 HBase 的 生产 环 
境 建 在 Windows 上 。 如果 用 户 坚 持 在 Windows 上 运行 HBase， 必 须 安装 
Cygwin 环 境 ( http://cygwin.com/ ) ， 因 为 Cygwin 为 Shell 脚 本 提供 了 一 
个 类 Unix 环 境 。 在 HBase 的 主页 上 有 Windows 安 装 指南 ( 
http://hbase.apache.org/cygwin.html ) ， 里 面 有 详细 的 解释 。 


2.3 HBase 使 用 的 文件 系统 


HBase 最 常 使 用 的 文件 系统 是 HDFS， 但 并 不 仅仅 是 HDFS， 因 为 
HBase 使 用 的 文件 系统 是 一 个 可 插 拔 的 架构 ， 用 户 可 以 使 用 其 他 任何 支 
持 Hadoop 接 口 的 文件 系统 代 苦 HDFS。 事 实 上 ， 用 户 可 以 实现 自己 的 文 
件 系统 一 一 其 至 基于 男 一 个 数据 库 。 一 切 宵 有 可 能 ! 


一 一 我 们 现在 讨论 的 不 是 操作 系统 使 用 的 底层 文件 系统 

(22.377) ， 而 是 指 HBase 直 接 依赖 的 存储 文件 系统 。 这 
些 是 更 高 层次 功能 和 API 的 抽象 定义 ， 然 后 由 Hadoop 调 用 并 
存储 数据 ， 最 终 Hadoop 会 将 数据 存储 到 操作 系统 使 用 的 倍 副 
文件 系统 。 


HDFS 是 生产 中 使 用 最 广泛 的 且 经 过 检验 的 文件 系统 。 几 乎 所 有 的 
生产 集群 部 使 用 HDFS 作 为 的 层 存 储 屋 ， 它 被 证 明 古 稳定 可 靠 的 系统 ， 
然而 不 使 用 HDFS 可 能 会 产生 不 可 探 的 风险 和 一 些 后 续 的 问题 。 


HDFS 如 此 受 欢 迎 的 主要 原因 是 ， 它 的 机 制 包 注 了 见 余 、 容 错 性 和 
可 扩展 性 。 无 论 选择 哪个 文件 系统 部 应 该 提供 类 似 的 保障 ， 因 为 HBase 
需要 假定 文件 系统 中 的 数据 存储 是 可 靠 的 ， 并 且 HBase 本 身 没 有 办 法 复 
i 
ZN 功能 。 


通过 设置 URI O 模式 ， 就 可 以 选择 不 同 的 文件 系统 ，URI 标 识 符 中 
的 scheme 〈 即 第 一 个 冒号 之 前 的 部 分 ) 标识 了 使 用 的 磁 副 。 图 2-1 显 示 
= 


4 RPC 


= | HOFS | S3/S3N_ | —> AWS 
县 xceiver 


| DataNode | 
| Operating system | 
| On-DiskFile System | 
| Disk Driver | Disk Driver | Disk Driver | 


图 2-1 文件 系统 协议 


用 户 可 以 使 用 Hadoop 提 供 的 文件 系统 ， 上 图 罗列 了 支持 Hadoop 接 
口 的 所 有 文件 系统 时 ， 用 户 可 以 对 此 先 做 一 些 尝试 。 对 有 经 验 的 开发 
首 来 说 ， 开 发 者 也 可 以 目 行 实现 目 己 的 文件 系统 。 


2.3.1 本 地 模式 


本 地 文件 系统 实际 上 完全 绕 过 了 Hadoop， 即 不 使 用 HDFS 或 任何 其 
他 集群 。 HBase 使 用 FileSystem 类 连接 到 文件 系统 实现 ，Hadoop 客 
户 端 加 载 并 使 用 Hadoop 提 供 的 ChecksumFileSystem 类 直接 操作 本 
地 磁盘 路 径 来 存储 所 有 数据 。 


这 种 方法 的 特点 是 ，HBase 直 接 使 用 本 地 文件 系统 ， 而 不 需要 关注 
使 用 的 是 一 个 远程 的 分 布 式 文件 系统 还 是 一 个 托管 集群 。HBase 单 机 模 
as 上 述 特 性 。 用 户 设 置 以 下 参数 孢 可 以 直接 使 用 本 地 文件 


file:///< path> 


形式 上 类 似 于 Web 浏 览 器 的 URI， 使 用 file: 直接 定位 本 地 文件 。 
2.3.2 HDFS 


Hadoop 分 布 式 文 件 系 统 (Hadoop Distributed File System, 
HDFS) 是 默认 的 文件 系统 ， 它 部 署 在 一 个 完全 分 布 式 的 集群 中 。 
HBase 人 选择 HDFS 作 为 文件 系统 ， 是 因为 HDFS 具 有 所 有 必需 的 功能 。 如 
之 前 讨论 的 气 MapReduce 的 耦合 ， 能 够 充分 利用 其 并 行 流 式 的 处 理 能 
力 。 并 且 拥 有 较 好 的 扩展 性 、 系 统 可 靠 性 和 上 自动 元 余 功能 ， 是 理想 可 
靠 的 文件 存储 系统 。HBase 增 加 了 随机 存 取 层 ， 是 HDFS 缺 失 的 部 分 ， 
是 对 Hadoop 的 理想 补充 。 另 外 利用 MapReduce 的 并 行 能 力 可 以 执行 批 
量 导 入 数据 的 功能 ， 最 大 限度 利用 磁盘 带宽 。 


使 用 以 下 URI 可 以 访问 HDFS: 


hdfs://< namenode>:< port>/< path> 


2.3.3 S3 


Amazon S3 (Simple Storage Service ) D 是 一 个 存储 系统 ， 并 主要 
与 动态 服务 器 结合 使 用 ，S3 一 般 运 行 在 Amazon 的 另 一 个 互补 服务 EC2 
(Elastic Compute Cloud) ® E ° 


S3 可 以 不 依赖 EC2 直 接 使 用 ，S3 输 入 和 导出 数据 消耗 的 带宽 成 本 
是 非常 高 的 。EC2 和 S3 之 间 的 数据 迁移 是 免费 的 ， 因 此 这 是 一 个 可 行 方 
案 。 关 于 如 何 启动 基于 EC2 的 集群 在 2.7.2 节 有 介绍 。 


S3 文 件 系统 实现 了 Hadoop 支 持 的 两 种 不 同 模式 : 原生 (raw 或 
native) 模式 和 块 (block) 模式 。 原 生 模 式 使 用 S3n :URI scheme， 并 
直接 将 数据 写 入 到 S3， 与 本 地 文件 系统 类 似 。 与 本 地 磁盘 类 似 ， 用 户 
可 以 在 桶 中 看 到 所 有 的 文件 。 


S3: 是 基于 块 的 模式 ， 可 用 来 元 服 S3 最 大 文件 为 5 GB 的 限制 。 情 
况 已 经 发 生变 化 ， 这 让 选择 哪 种 模式 变 得 更 困难 一 一 或 者 更 容易 ， 如 
果 用 户 文 件 不 超过 5 GB 就 可 以 选择 s3n: e 


S3 的 块 模 式 模拟 了 HDFS 文 件 系统 ， 它 使 浏览 桶 的 内 容 变 得 非常 
难 ， 因 为 只 有 内 部 的 文件 块 是 可 见 的 ， 而 HBase 存 储 文件 的 文件 块 散 落 
在 集群 的 各 个 地 方 。 可 以 使 用 如 下 URI 配 置 选择 文 件 系统 : 


s3://< bucket-name> 
s3n://< bucket-name> 


2.3.4 ”其 他 文件 系统 


其 他 文件 系统 ， 如 CloudStore (过 去 称 为 Kosmos filesystem， 简 称 
KFS， 同 名 的 URI scheme 将 在 下 一 段 末 进 行 描述 ) 。KFS 是 一 个 用 
C++ 语言 编写 的 、 开 源 的 、 分 布 式 的 、 高 性 能 的 文件 系统 ， 功 能 上 与 
HDFS 类 似 。 在 CloudStore 网 站 可 以 查找 到 更 多 有 关 它 的 信息 


(http://kosmosfs.sourceforge.net/ ) ° 


KFS 可 以 在 Solaris 和 Linux 上 上 使用， 最初 KFS 是 由 Kosmix 开 发 ， 并 
在 2007 年 发 布 为 开源 应 用 的 。 选 择 CloudStore 作 为 HBase 的 文件 系统 需 
要 使 用 以 下 URI 格 式 : 


kfs:///< path> 


24 安装 选项 


用 户 一 旦 决定 了 操作 系统 相关 的 基本 参数 ， 束 必须 马上 安装 HBase 
到 服务 器 中 。 用 户 有 多 种 选择 ， 我 们 接 下 来 将 详细 讨论 。 在 附 邓 DD 中 可 
查看 其 他 选项 。 


2.4.1 Apache 二进制 发 布 包 


大 多 数 Apache 项 目 安装 过 程 中 需要 下 载 一 个 发 布 版 本 ， 通 常 是 一 
个 包含 所 有 必需 文件 的 归档 文件 。 有 些 项 目 将 归档 文件 分 为 二 进 制 文 
件 和 源 文件 两 种 不 同 的 类 型 一 一 前 者 拥有 所 有 运行 项 目 所 需 的 文件 ， 
后 者 则 包含 了 编译 项 目 所 需 的 所 有 文件 。HBase 使 用 一 个 包含 了 二 进 制 
文件 和 源 文件 的 独立 软件 包 。 更 多 关于 HBase 版 本 的 信息 可 以 查看 
Release Notes © 页 面 。 另 一 个 有 趣 的 页 面 是 Change Log ， 其 中 列 出 
了 增加 、 修 改 的 功能 和 修复 的 缺陷 。 


用 户 可 以 从 Apache HBase 的 发 布 网 站 ( 
http://www.apache.org/dyn/closer.cgi/hbase/ ) 下 载 HBase 的 最 新 版 本 ， 并 
将 内 容 解 压 到 一 个 合适 的 目录 中 ， 如 /usr/local 或 /opt ， 像 这 样 : 


$ cd /usr/local 


$ tar -zxvf hbase-x.y.z 


. tar.gz 


EAA CHa, APTA TAER H Ae Pe ee CF, 
解压 归档 文件 后 得 到 的 目录 结构 如 下 : 


$ ls -1r 


-rw-r--r-- 1 larsgeorge staff 192809 Feb 15 01:54 CHANGES.txt 
-rw-r--r-- 1 larsgeorge staff 11358 Feb 9 01:23 LICENSE.txt 
-rw-r--r-- 1 larsgeorge staff 293 Feb 9 01:23 NOTICE.txt 
-rw-r--r-- 1 larsgeorge staff 1358 Feb 9 01:23 README.txt 
drwxr-xr-x 23 larsgeorge staff 782 Feb 9 01:23 bin 
drwxr-xr-x 7 larsgeorge staff 238 Feb 9 01:23 conf 
drwxr-xr-x 64 larsgeorge staff 2176 Feb 15 01:56 docs 


-rwxr-xr-x 1 larsgeorge staff 905762 Feb 15 01:56 hbase- 
0.90.1-tests.jar 

-rwxr-xr-x 1 larsgeorge staff 2242043 Feb 15 01:56 hbase- 
0.90.1.jar 

drwxr-xr-x 5 larsgeorge staff 170 Feb 15 01:55 hbase- 
webapps 

drwxr-xr-x 32 larsgeorge staff 1088 Mar 3 12:07 lib 
-rw-r--r-- 1 larsgeorge staff 29669 Feb 15 01:28 pom.xml 
drwxr-xr-x 9 larsgeorge staff 306 Feb 9 01:23 src 


根 目录 包含 一 些 文本 文件 ， 说 明文 档 以 及 许可 条 款 (LICENSE.txt 
和 NOTICE.txt ) 和 其 他 一 些 生成 信息 (README.txt XIE) 。 
CHANGES.txt 是 变更 日 志 的 静态 快照 页 面 ， 它 包含 了 当前 下 载 版 本 中 
所 有 的 变更 记录 。 


根 目 孙 中 还 能 发 现 Java 的 归档 文件 ， 又 名 JAR 文 件 ， 包 舍 已 编译 的 
Java 代 码 以 及 所 有 其 他 必要 的 资源 。JAR 文 件 有 两 个 ， 一 个 只 包括 名 称 
和 版 本 号 ， 男 一 个 还 包含 tests 后 级 ， 此 文件 包含 HBase 的 测试 用 例 ， 开 
发 人 员 使 用 其 中 的 单元 测试 验证 一 个 版 本 是 完全 可 用 并 且 没 有 退化 。 


最 后 一 个 文件 是 pom.xml ， 这 是 Maven 编 译 工 程 时 依赖 的 文件 ， 详 
情 见 2.4.2 节 。 


根 目 好 下 的 其 他 目录 如 下 所 示 。 


bin 


bin ， 即 二 进 制 文件 ， 此 目 孙 包含 了 HBase 提 供 的 所 有 脚本 ， 可 以 
完成 启动 和 停止 ， 运 行 独立 的 守护 进程 © 或 启动 额外 的 master 节 点 等 
功能 ， 请 在 2.8.1 廊 中 查阅 如 何 使 用 它们 。 


conf 


配置 目录 中 包含 了 定义 HBase 配 置 的 文件 ， 在 2.6 节 中 非常 详细 地 
解释 了 其 中 包含 的 文件 。 


docs 


这 个 目录 包含 了 HBase 工 程 网 页 的 副本 ， 以 及 工具 、API 和 项 目 目 
身 的 文档 信息 。 打 开 浏 览 器 把 docs/index.html 文件 拖 入 浏览 器 ， 双 击 该 
文件 使 用 文件 ~ 打开 (或 类 似 ) 表单 就 可 以 使 用 文档 。 
hbase-webapps 


HBase 提 供 了 Java 实 现 的 Web 接 口 ， 其 中 所 用 到 的 文件 都 在 这 个 目 
了 永 下 。 用 户 在 布置 HBase 到 生产 环境 中 或 使 用 HBase 时 ， 很 少 有 机 会 接 
触 到 这 个 目 孙 中 的 文件 。 


lib 


Java 应 用 程序 依赖 很 多 类 库 ， 这 些 类 库 包含 了 实际 的 执行 程序 ， 并 
且 这 些 文件 部 放置 在 l 记 目 邓 里 。 


logs 
HBase 进 程 通 常 以 守护 进程 的 形式 运行 ， 即 在 操作 系统 的 后 台 运 


行 ， 在 生命 周期 内 它 会 将 一 些 状态 、 程 度 、 异 常 等 信息 打印 到 日 志文 
fF, 12.5.2 IAT ERNE ° 


wa, 
mA 
a . + 
| wW a 


“ 首次 启动 时 ，logs 目录 可 能 不 存在 ， 但 HBase 会 通 
过 日 志 框 架 自 动 创建 日 志文 件 夹 。 


如 果 用 户 计划 编译 二 进 制 文件 (如 何 去 做 请 查阅 2.4.2 节 ) ， 或 加 
入 HBase 有 的 开发 团队 ， 用 户 将 需要 源 文件 ， 源 文件 包含 了 所 有 的 发 布 信 


如 果 你 已 经 解压 了 一 个 发 布 版 ， 现 在 就 可 以 跳 到 2.5 节 去 研讨 如 何 
启动 HBase 了 。 


2.4.2 ”编译 源码 


HBase 依 赖 Maven 编 译 工程 ， 因 此 用 户 需 要 安装 Maven 以 及 完整 的 
Java 开 发 工具 包 (Java Development Kit, JDK) 不 仅仅 是 在 Java 运 
行 时 才 会 被 用 到 ， 关 于 这 里 的 细节 在 2.1 万 中 有 介绍 。 


ce 上 
一 本 节 仅 仅 介绍 了 如 何 通过 源码 编译 HBase 工 程 ， 这 
对 需要 打 补 丁 或 增加 功能 来 说 才 是 需要 掌握 的 技能 。 


a en oe 束 可 以 通过 以 下 命令 来 编译 二 进 
Al: 


$ mvn assembly:assembly 


需要 注意 的 是 ，HBase 的 运行 测试 会 超过 一 个 小 时 。 如 果 用 户 相信 
代码 是 没 问 题 的 ， 可 以 市 省 这 个 时 间 ， 直 接 通 过 以 下 命令 跳 过 测试 阶 
By: 


$ mvn -DskipTests assembly: assembly 


| 


这 个 编译 过 程 大 概 需 要 几 分 钟 ， 如 采 没 有 跳 过 测试 阶段 可 能 需要 
几 十 分 钟 。 最 后 ，HBase 的 home 目 杂 里 会 创建 target 目录 。 一 旦 编译 完 
成 并 打印 出 提示 信息 Build Successful ， 在 target 目录 里 ， 你 将 能 
找到 编译 和 打包 好 的 tarball 格式 归档 文件 。 此 时 ， 你 可 以 跳 转 回 2.4.1 
方 ， 按 照 步 又 将 其 安装 在 自己 的 私有 服务 器 中 。 


2.55 ”运行 模式 


HBase 有 两 个 运行 模式 : 单机 模式 和 分 布 式 模式 。2.1 市 介绍 过 如 
何 局 动 单机 版 HBase， 如 果 用 户 想 启动 分 布 式 模式 只 需要 编辑 conf 目 录 
中 的 配置 文件 即 可 。 


无 论 司 动 什么 模式 ， 都 必须 要 编辑 confhbase-envsh 文件 以 指定 运 
行 HBase 的 java 安装 目录 ， 只 需要 设置 JAVA_HOME 参数 即 可 ， 让 该 参 
数 指向 Java 安 装 的 根 目 孙 。 在 这 个 文件 中 ， 用 户 还 能 够 设置 HBase 的 环 
境 变 量 ， 如 堆 大 小 和 其 他 一 些 JVM 人 参数 ， 以 及 日 志文 件 的 输出 目录 


ZE o 
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2.5.1 单机 模式 


单机 模式 是 默认 模式 ， 具 体 描述 见 2.1 节 。 在 单机 模式 中 ，HBase 
并 不 使 用 HDFS 一 一 仅 使 用 本 地 文件 系统 一 一 ZooKeeper 程 序 与 HBase 程 
序 运行 在 同一 个 JVM 进 程 中 ，ZooKeeper 绑 定 到 客户 端的 常用 端口 上 ， 
以 便 客 户 端 可 以 与 HBase 进 行 通信 。 


2.5.2 ”分布 式 模式 


分 布 式 模式 可 以 进一步 细 分 成 伪 分 布 式 模式 (pseudo distributed) 
所 有 守护 进程 都 运行 在 单个 节点 上 ， 以 及 完全 分 布 式 模式 (fully- 
distributed) 一 一 进程 运行 在 物理 服务 器 集群 中 。 


分 布 式 模式 依赖 Hadoop 分 布 式 文件 系统 实例 (Hadoop Distributed 
File System, HDFS) ， 详 情 见 链接 
http://hadoop.apache.org/common/docs/current/api/overview- 


summary.html#overview_description ， 从 中 可 以 查阅 如 何 建立 一 个 HDFS 
。 进行 布置 前 ， 一定 要 确保 有 一 个 合适 的 、 正 在 工作 的 HDFS 集 


下 面 我 们 介绍 如 何 局 动 不 同 的 分 布 式 模式 ， 天 于 完全 分 布 式 模式 
与 盆 分 布 式 模 式 的 验证 和 安 六 信 息 在 2.8.1 让 中 有 庄 细 摘 述 。 经 过 验证 
的 部 署 脚 本 适合 两 种 部 署 类 型 〈 伪 分 布 式 模式 与 完全 分 布 式 模式 ) 。 


1. 伪 分 布 式 模式 


伪 分 布 式 模式 是 在 一 台 主 机 上 运行 所 有 进程 的 模式 。 此 配置 仅仅 
征 协助 HBase 用 于 测试 和 原型 ， 不 要 在 生产 环境 中 使 用 此 配置 ， 也 不 要 
用 此 配置 做 HBase 的 性 能 比较 。 


如 果 你 确认 HDFS 已 经 启动 ， 束 请 编辑 conf/hbase-site.xml 文件 ， 在 
这 个 文件 中 可 以 添加 上 自 定 义 的 本 地 参数 ， 并 覆盖 HBase 的 默认 配置 (在 
附录 A 中 可 查阅 完整 属性 列表 ， 以 及 2.6.1 广 中 的 “HDFS 相 关 配 置 ”) 。 
设置 hbase .rootdir 属性 可 以 指定 HDFS 实 例 。 例 如 ， 添 加 以 下 配置 
属性 到 hbase-site.xml 文件 是 指 : HBase 使 用 HDFS 的 /hbase 目录 作为 根 
目录 ，HDFS 的 服务 端口 是 本 机 端口 9000， 并 且 数 据 只 保留 一 个 副本 
(建议 伪 分 布 式 模式 这 样 做 ) : 


< configuration> 


< property> 
< name>hbase.rootdir< /name> 
< value>hdfs://localhost:9000/hbase< /value> 
< /property> 
< property> 
< name>dfs.replication< /name> 
< Value>1< /value> 
< /property> 


< /configuration> 


aw a 

“ 在 这 个 例子 中 ， 服 务 绑 定 在 本 机 中 ， 这 意味 着 远程 
客户 端 无 法 连接 。 如 果 用 户 想 从 远程 位 置 连接 ， 其 需要 做 相 
应 的 修改 。 


如 琳 用 户 想 笠 试 盆 分 布 式 模 式 ， 那 么 现在 束 可 以 跳 转 到 2.8.1 广 但 
看 如 何 启 动 和 验证 。 第 12 章 中 有 关于 如 何在 伪 分 布 式 模式 中 启动 master 
和 region 服 务 器 的 相关 信息 。 


2. 完全 分 布 式 模式 


如 果 用 户 需 要 在 多 台 主 机 中 运行 完全 分 布 式 操 作 ， 需 要 进行 以 下 
配置 。 在 hbase-site.xml 中 添加 hbase.cluster.distributed 属性 
并 设置 为 true ， 添 加 hbase .rootdir 属性 并 设置 HDFS NameNode 
的 访问 地 址 ， 这 将 决定 HBase 的 数据 会 写 到 哪里 ， 例 如 ，NameNode 运 
行 在 主机 名 为 namenode foo.com 的 服务 器 上 ， 并 以 9000 为 服务 端 
口 ，HBase 在 HDFS 上 使 用 的 根 目录 为 /hbase ， 可 以 做 如 下 配置 ; 


< configuration> 


< property> 
< name>hbase.rootdir< /name> 
< value>hdfs://namenode. foo.com:9000/hbase< /value> 
< /property> 
< property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
< /property> 


< /configuration> 


配置 region 服 务 器 。 此 外 ， 完 全 分 布 式 模 式 需要 修改 
conf/regionservers 文件 ， 该 文件 列 出 了 所 有 运行 HRegionServer 守 护 进 


程 的 主机 ， 每 个 主机 独立 占用 一 行 (类 似 于 Hadoop 中 的 slaves 文件 ) 
HBase 集 群 启 动 和 关闭 时 会 按照 该 文件 中 罗列 的 主机 逐一 执行 。 


ZooKeeper 安 装 。 分 布 式 的 HBase 依 赖 于 ZooKeeper 集 群 。 所 有 的 
忆 点 和 客户 端 都 必须 能 够 正常 访问 ZooKeeper。HBase 默 认 管 理 一 个 单 
点 的 ZooKeeper 集 群 (ZooKeeper 能 够 以 一 个 单独 的 节点 启动 ，， 用 户 
通过 局 动 和 关闭 脚本 就 可 以 把 ZooKeeper 当 做 HBase 的 一 部 分 来 启动 和 
关闭 进程 。 用 户 也 可 以 不 依赖 于 HBase 管 理 ZooKeeper 集 群 ， 只 需 为 
HBase 指 出 需要 使 用 的 集群 即 可 。 在 conf/hbase-env.sh 中 设置 
HBASE_MANAGES_ZK 变量 为 true ， 就 可 以 将 ZooKeeper 作 为 HBase 的 
一 部 分 管理 启动 (这 个 参数 默认 为 true ) 。 


当 用 户 需 要 通过 HBase 管 理 ZooKeeper 时 ，ZooKeeper 可 以 直接 使 用 
本 地 zoo.cfg 文件 作为 依赖 的 配置 文件 ， 或 者 直接 使 用 conf/hbase-site.xml 
中 的 ZooKeeper 配 置 。ZooKeeper 的 相关 配置 可 以 在 hbase-site.xml 中 通 
过 XML 格 式 设置 ， 属 性 以 hbase .zookeeper .property 为 前 级 ， 例 
如 ，clientPort 可 以 设置 为 
hbase.zookeeper.property,.clientPort。 在 HBase 中 这 些 参 
数 都 有 默认 值 ， 包 括 ZooKeeper 的 配置 ， 详 情 见 附件 A， 查 询 前 级 为 
hbase. zookeeper.property 的 属性 。 


zo0.cfg 与 hbase-site.xml 的 对 比 


将 hbase-site.xml 与 z00.cfg 结合 起 来 配置 ZooKeeper 参 
数 非 常 容 易 引 起 混乱 。 对 于 初学 者 来 说 ， 如 果 在 classpath 
中 配置 zoo.cfg (这 意味 着 Java 进 程 可 以 找到 这 个 配置 ) ， 
这 样 束 可 以 履 盖 hbase-site.xml 中 除了 以 
hbase. zookeeper.property 为 前 级 的 配置 。 


有 一 些 ZooKeeper 的 客户 端 配置 无 法 在 zoo.cfg 中 读 
取 ， 因 此 必须 要 在 hbase-site.xml 中 设置 ， 例 如 ， 客 户 端 会 


话 超时 配置 一 zookeeper .session. timeout 。 其 他 
更 详细 的 描述 如 下 表 所 示 。 


zoo.cfg 文件 中 格式 为 server.n 的 若干 行 击 


HHT D FES 2E et 
hbase .zookeeper .property a UE 2 achbase-site.xml 
又 在 hpase- 
zookeeper. 仅 在 hbase-site.xml site.xml 中 才 


为 了 避免 部 署 中 出 现 刘 乱 ， 不 推荐 使 用 zoo.cfg ， 文 件 
推荐 只 使 用 hbase-site.xml 文件 。 尤 其 在 完全 分 布 式 模式 
中 ， 用 户 完全 没有 必要 将 ZooKeeper 的 特殊 配置 文件 复制 
到 其 他 HBase 服 务 磊 中 。 


site.xml 


如 果 用 户 使 用 hbase-site.xml 配置 ZooKeeper， 首 先 要 设置 的 是 
hbase. zookeeper. quorum 属性， 通过 这 个 属性 可 以 设置 可 用 服务 
名 列表 。 这 个 属性 默认 是 本 地 的 单一 成 员 ， 这 个 默认 属性 不 适合 完全 
式 模式 的 HBase (如 果 不 设置 该 属性 客户 端 就 无 法 进行 远程 访 
JHJ) 。 


应 该 启动 几 台 ZooKeeper? 


用 户 可 以 运行 一 台 只 包括 一 个 广 点 的 ZooKeeper,， 但 
是 在 生产 环境 中 ， 推 荐 使 用 3 台 、5 人 台 或 7 台 ; 数量 越 多 集 
群 容 灾 能 力 越 强 。 但 是 最 好 运行 奇数 个 和 点 ， 因 为 运行 偶 
数 个 节点 不 容易 让 服务 器 之 间 达 成 共识 一 -ZooKeeper 集 
群 需要 一 个 绝 大 多 数 的 投票 ， 无 论 3 台 或 4 台 服 务 器 都 需要 
BT DET ANS, BOR AA Be REM BRA 
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的 情况 下 束 会 不 可 用 。 


给 每 个 ZooKeeper 服 务 右 大 约 1GB 的 内 存 和 专用 磁盘 
(如果 可 能 的 话 ， 专 用 位 盘 有 利于 确保 ZooKeeper 的 性 
fe) 。 在 负载 非常 高 的 集群 上 ，ZooKeeper 服 务 器 应 该 独 
立 于 RegionServer、DataNode 和 TaskTracker。 


例如 ， 如 果 需 要 通过 HBase 在 节点 rs{1，2，3，4，5}.foo.com 上 管 
理 ZooKeeper， 并 绑 定 客户 端 服务 端口 2222 (默认 是 2181) ， 用 户 就 需 
要 在 conf/hbase-env.sh 中 将 HBASE _MANAGE _ZK 设置 为 true ， 并 且 需 
要 编辑 conf/hbase-site.xml 文件 和 设置 
hbase. zookeeper.property.clientPort 和 
hbase .zookeeper ,quorum。 此 外 用 户 还 应 该 设置 
hbase. zookeeper.property.dataDir 以 存储 ZooKeeper 的 元 数 


据 ， 如 果 不 设置 这 个 属性 ， 默 认 将 是 /tmp ， 系 统 重 局 后 会 目 动 清理 这 
个 目录 。 下 面 的 例子 描述 了 ZooKeeper 设 置 该 属性 为 Var/zookeeper ° 


< configuration> 


< property> 
< name>hbase.zookeeper.property.clientPort< /name> 
< value>2222< /value> 
< /property> 
< property> 
< name>hbase. zookeeper.quorum< /name> 
< 


value>rsi.foo.com,rs2.foo.com, rs3.foo.com,rs4.foo.com,rs5.foo. com< 
/value> 
< /property> 
< property> 
< name>hbase.zookeeper.property.dataDir< /name> 
< value>/var/zookeeper< /value> 
< /property> 


< /configuration> 


使 用 已 有 ZooKeeper 集 群 。HBase 采 用 已 有 的 ZooKeeper 集 群 ， 
此 不 能 依赖 HBase 来 管理 ZooKeeper， 用 户 需 要 在 conf/hbase-env.sh 中 将 
HBASE_MANAGES_ZK 属性 设置 为 false 。 


# Tell HBase whether it should manage it's own instance of 


Zookeeper or not. 
export HBASE_MANAGES_ZK=false 


步 需 要 在 hbase-site.xml 中 设置 ZooKeeper 的 连接 地 址 与 客户 端 
“Os, 或 将 在 zoo cfg 中 配置 相关 信息 ， 并 在 HBase 的 CLASSPATH 4 
添加 zoo.cfg 路 径 。HBase 局 动 时 会 读 取 zoo.cfg PHAGE, HA hbase- 
site.xml 中 的 配置 。 


使 用 HBase 管 理 ZooKeeper，ZooKeeper 会 作为 HBase 的 一 部 分 随 着 
局 动 /关闭 脚本 进行 局 BURA 。 如 果 需 RIRA 云 行 ZooKeeper， 依赖 
HBase 的 启动 与 天 闭 ， 需 要 执行 以 下 命令 : 


${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper 


采取 这 样 的 方式 可 以 让 ZooKeeper 与 HBase 脱 离 关 系 ， 只 有 在 将 
HBASE _MANAGES _ZK 设置 为 false 后 ，ZooKeeper 才 不 会 因 HBase 的 
天 闭 而 关闭 。 


关于 独立 运行 的 ZooKeeper 集 群 的 相关 信息 ， 请 参考 ZooKeeper 入 
门 指导 的 相关 内 容 ( 


http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html 


) ， 此 外 还 可 以 参考 ZooKeeper 的 维基 百科 ( 
http://wiki.apache.org/hadoop/ZooKeeper/FAQ#A7 ) 或 ZooKeeper 的 相关 
文档 ( 


http://zookeeper.apache.org/doc/r3.3.3/zookeeperAdmin.html#sc_zkMulitSer 
verSetup ) 


2.6 WE 


通过 学 习 如 何 选 择 文件 系统 、 运 行 模 式 、 调 整 操 作 系统 ， 我 们 已 
经 完全 掌握 了 这 种 基本 操作 ， 现 在 让 我 们 看 看 如 何 配置 HBase。HBase 
的 配置 类 似 于 Hadoop 的 配置 参数 ， 配 置 文件 放 在 conf 目 录 下 。 这 些 文 
件 都 是 简单 的 文本 文件 ， 有 些 是 包括 一 系列 属性 的 XML 文件 ， 另 外 一 
些 是 纯 文 本 文件 ， 且 其 中 每 行 都 是 一 个 配置 项 。 
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一 个 名 为 confpbase-envysh 的 文件 中 包括 HBase 局 动 时 要 使 用 到 的 
环境 变量 ， 这 些 配 置 经 常 被 脚本 用 于 启动 和 关闭 集群 (详情 见 5.2.4 
TT) 。 用 户 可 能 还 需要 在 XML 文件 2 conf/hbase-site.xml 中 添加 一 些 配 
置 项 ， 这 个 文件 中 的 配置 会 覆盖 HBase 的 默认 配置 ， 人 例如， 用户 可 以 在 
其 中 设置 可 用 文件 系统 和 ZooKeeper 可 用 地 址 。 


用 户 以 分 布 式 模式 运行 HBase 时 ， 首 移 需 要 编辑 HBase 的 配置 文 
fF, een 目 孙 到 集群 的 其 他 世 点 中 ， 但 HBase 不 会 目 动 完 成 这 
Fo T, Q 


一 一 全 同步 集群 的 配置 有 很 多 种 方式 ， 最 简单 的 方法 是 使 
用 rsync 工具 。 同 时 还 有 更 多 非常 精巧 的 同步 配置 方式 ， 用 
户 可 以 参考 2.7 记 。 


2.6.1 hbase-site.xmlShbase-default.xml 


在 Hadoop 中 ， 如 果 用 户 需 要 增加 HDFS 的 特定 配置 就 要 添加 到 hdfs- 
site.xml 文件 中 。 与 此 类 似 ， 在 HBase 中 ， 用 户 需 要 增加 配置 信息 就 需 
要 将 配置 添加 到 conf/hbase-site.xml 文件 中 。 配 置 参数 的 全 部 列表 参考 
附件 A， 或 直接 查看 HBase 目 录 src/main/resources 中 的 源 文 件 hbase- 
default.xml , doc 目录 中 也 有 配置 参数 信息 的 HTML 文 档 。 


一 一 人 并 非 所 有 的 配置 信息 都 罗列 在 了 hbase-default.xml 
中 。 配 置 中 有 些 参 数 并 不 常用 并 且 只 在 源码 中 存在 ， 因 此 ， 


唯一 的 办 法 旦 通过 阅读 源码 来 查找 这 些 配置 参数 的 作用 。 


进程 启动 后 ， 服 务 絮 会 先 恋 取 hbase-default.xml 文件 ， 然 后 读 取 
hbase-site.xml 文件 ，hbase-site.xml 的 内 容 会 者 盖 hbase-default.xml 中 的 
内 容 。 


修改 site 文 件 后 必须 要 重启 进程 才能 得 到 最 新 的 配置 。 


HDFS 相 关 配 置 


如 果 用 户 需 要 改动 Hadoop 和 集群 中 HDFS 的 相关 配置 ， 
也 就 是 说 用 户 修改 了 HDFS 客 户 端 相关 配置 而 不 是 服务 器 
端 相 关 配 置 ，HBase 中 需要 经 过 以 下 操作 才能 使 配置 生 
效 。 


e 在 hbase-env.sh 中 ， 将 HADOOP CONF DIR 配置 到 
HBASE CLASSPATH 中。 


。 复制 一 份 hdfs-site.xml (或 hadoop-site.xml ) 文件 到 
${HBASE_HOMEYconf 中， 或 在 
${HBASE_HOME conf Fik EFK ENAIT 
jes © 


。 直接 把 这 些 配 置 添加 到 hbpase-site.xml ° 


例如 ，HDFS 客 户 端 需要 使 用 dfs.replication 这 个 参数 ， 
希望 能 够 设置 复制 因子 为 5，HBase 默 认 使 用 的 是 3， 只 有 
按照 以 上 的 步骤 才能 让 HDFS 的 配置 在 HBase 中 可 用 。 


Hadoop 配 置 文件 在 HBase 中 的 使 用 优先 级 最 低 ， 换 名 
话说 ， 在 HBase 中 的 配置 与 Hadoop 配 置 属性 有 重复 的 情况 
下 ， 无 论 是 default 还 是 site 文 件 ，HBase 配 置 的 优先 级 都 会 
高 于 Hadoop 配 置 的 优先 级 。 这 意味 着 用 户 可 以 使 用 HBase 
配置 文件 的 参数 覆盖 Hadoop 的 参数 。 


2.6.2 hbase-env.sh 


HBase 的 环境 变量 等 信息 需要 在 这 个 文件 中 设置 ， 例 如 ，HBase 守 
护 进 程 的 JVM 局 动 参数 : Java 推 大 小 和 垃圾 回收 策略 等 。 在 这 个 文件 中 
还 可 以 设置 HBase 配 置 文件 的 目 了 未、 日 志 目 未 、SSH 寺 项、 进程 pid X 
件 的 目 孙 等 。 用 户 最 好 打开 confpbase-envsh 文件 ， 并 仔细 阅读 其 中 内 
容 ， 每 个 配置 在 文件 中 均 有 注释 。 在 HBase 守 护 进 程 启动 前 可 以 在 这 里 
设置 自己 需要 的 环境 变量 以 便 HBase 读 取 。 


改变 配置 后 需要 重启 HBase 才 能 生效 。 2 


2.6.3 regionserver 
这 个 文件 罗列 了 所 有 region 服 务 絮 的 主机 名 ， 它 是 纯 文本 文件 ， 文 


件 中 的 每 一 行 都 是 主机 名 。HBase 的 运 维 脚本 会 依次 迭代 访问 每 一 行 来 
启动 所 有 region 服 务 器 进程 。 


一 一 ”如 果 用 户 使 用 了 较 早 的 0.20.x 系 列 版 本 ， 里 面 有 
masters 文件 ， 但 是 之 后 的 版 本 中 已 经 将 这 个 文件 移 除 了 ， 并 
且 不 再 需要 这 个 文件 了 。 现 在 每 个 master 在 启动 的 时 候 都 会 
注册 到 ZooKeeper 中 ， 因 此 master 的 地 址 可 以 在 ZooKeeper 中 
动态 获取 。 


2.6.4 log4j.properties 


修改 这 个 文件 中 的 参数 可 以 改变 HBase 的 日 志 级 别 ， 改 变 后 重启 
HBase， 新 配置 才能 生效 ， 此 外 还 可 以 通过 HBase 的 UI 界面 来 更 改 特 定 
守护 进程 的 日 志 级 别 ， 详 情 见 12.4 丰 。12.5.2 贡 可 以 帮助 用 户 学 习 如 何 
通过 分 析 日 志 来 查找 和 解决 问题 。 


2.6.5 ”配置 示例 


下 面 示例 是 一 个 10 个 节点 的 集群 。 节 点 的 名 字 分 别 是 
master.foo.com, host1.foo.com #host9.foo.com ° HBase 
master 与 HDFS NameNode 都 运行 在 master .foo.com 上 ，region 服 务 
器 运行 在 host1.foo.com 到 host9.foo.com 上 。3 个 节点 的 
ZooKeeper 分 别 运 行 在 zk1,foo,com、zk2 ,foo,.com 和 
Zk3 .foo .com 中 。ZooKeeper 的 元 数据 目录 设置 为 War/zookeeper。 主 
要 的 配置 文件 一 hbase-site.xml ` regionservers ` hbase-env.sh 一 一 都 
可 以 在 HBase 的 conf 目录 下 找到 ， 配 置 如 下 所 示 。 


1. hbase-site.xml 


该 文件 包括 定义 了 启动 HBase 集 群 的 基本 配置 信息 。 


< ?xml version="1.0"?> 

< ?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

< configuration> 

< property> 
< name>hbase.zookeeper.quorum< /name> 
< value>zk1i.foo.com, zk2.foo.com, zk3.fo00.com< /value> 
/property> 
property> 
< name>hbase.zookeeper.property.dataDir< /name> 
< value>/var/zookeeper< /value> 
/property> 
property> 
< name>hbase.rootdir< /name> 
< value>hdfs://master.foo.com:9000/hbase< /value> 
/property> 
property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
< /property> 
< /configuration> 


2. regionservers 


这 个 文件 中 记录 了 所 有 region 服 务 絮 的 主机 列表 。 在 我 们 的 例子 
中 ， 除 了 运行 HBase Master 和 和 HDFS NameNode 的 和 点 
master.foo.com 24}, MET Saba T regioni ki auth © 


3. hbase-env.sh 


修改 hbase-env.sh 文件 内 的 配置 只 需要 修改 内 容 中 的 默认 信息 即 
可 。 下 面 是 对 hbase-env.sh 中 默认 内 容 做 的 修改 ， 我 们 将 HBase 的 堆 设 
置 为 4GB， 以 替代 默认 的 1GB 。 


# export HBASE_HEAPSIZE=1000 


export HBASE_HEAPSIZE=4096 


一 旦 用 户 编 辑 完 配置 文件 ， 就 需要 将 文件 同步 到 集群 的 所 有 服务 
器 上 。 用 户 可 以 在 Unix 或 类 Unix 平 台中 使 用 rsync 完成 这 项 工作 ， 编 辑 
er ene are ae 
情 见 2.7 节 。 
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2.6 节 介绍 了 用 户 需要 扩展 集群 时 所 需 修改 的 配 
置 。 


2.6.6 ”客户 端 配置 


HBase Master 能 够 在 物理 机 器 上 自由 移动 OE 12.1.3 AST 
本 地 宛 备 的 master") ， 客 户 端 启 动 时 通过 ZooKeeper 来 获取 关键 信息 
( 见 8.5 节 ) ， 因 此 客户 端 必 须 在 hbase-site.xml 文件 中 配置 ZooKeeper 的 
连接 地 址 ， 同 时 要 将 hbase-site.xml 配置 到 启动 Java 进 程 的 CLASSPATH 
中 o 


a da 
一 用 户 还 可 以 在 代码 中 设置 关键 配置 属性 
hbase .zookeeper .quorum。 这 种 做 法 可 以 保证 客户 端 


不 依赖 额外 的 配置 文件 。 详 情 见 3.2.1P。 


如 采用 户 通 过 IDE 运 行 HBase 客 户 端 ， 必 须 保 证 conf 目 杂 已 经 在 
classpath 中 ， 这 样 才 能 够 保证 客户 端 代码 找到 配置 文件 。 


HBase 的 Java 客 户 端 需要 在 CLASSPATH 中 指出 依赖 的 JAR 文 件 : 
hbase ` hadoop-core ` zookeeper ` log4j ` commons-logging 和 
commons-lang 。 这 些 JAR 文 件 都 以 特定 发 布 版 本 号 为 后 级 。 理 想 情 况 
下 ， 用 户 只 能 使 用 HBase 提 供 的 JAR， 而 不 能 随意 使 用 其 他 版 本 ， 因 为 
即使 轻微 的 版 本 变化 都 有 可 能 导致 客户 端 远 程 访 问 HBase 集 群 时 出 现 问 


题 。 


客户 端 使 用 的 ipase-site.xml 配置 的 例子 如 下 : 


< ?xml version="1.0"?> 
< ?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
< configuration> 

< property> 


< name>hbase.zookeeper.quorum< /name> 
< value>zki.foo.com, zk2.foo.com, zk3.f00.com< /value> 
< /property> 
< /configuration> 


2.7 ”部署 


一 旦 用 户 配置 好 HBase 之 后 ， 接 下 来 就 应 该 考虑 在 集群 上 部 署 
HBase。 由 于 Hadoop 和 HBase 是 Java 语 言 编 写 的 ， 尽 管 有 少量 的 特殊 要 
求 ， 但 还 是 有 许多 方法 可 以 进行 集群 部 署 。 最 简单 的 就 是 在 服务 器 间 
复制 所 有 文件 ， 因 为 这 样 可 以 使 服务 器 共享 相同 的 配置 文件 。 有 很 多 
关于 部 署 的 做 法 可 以 党 试 ， 首 先 必 须 确认 所 有 建议 的 配置 和 在 2.2 节 中 
人 ， 或 者 说 在 用 户 添 加 新 服务 器 时 需要 同时 应 

这 些 o 


2.7.1 ”基于 脚本 


与 下 面 列 出 的 更 先进 的 方式 相 比 ， 基 于 脚本 的 方法 似乎 已 经 过 时 
了 。 基 于 脚本 模式 比较 适合 小 型 甚至 中 等 规模 的 集群 。 与 其 说 是 集群 
的 规模 不 如 说 是 运 维 人 员 的 数量 ， 在 一 个 更 大 的 操作 组 中 ， 管 理 员 不 
得 不 重复 部 署 ， 而 不 是 通过 脚本 来 更 新 集群 。 

脚本 利用 配置 文件 regionservers 作为 集群 服务 器 列表 。 例 2.2 展 示 
了 一 个 非常 简单 的 脚本 ， 这 个 脚本 可 以 实现 从 master 广 点 复制 HBase 发 
布 目录 到 其 他 slave 节 点 的 功能 。 


例 2.2 示例 脚本 在 HBase 集 群 中 复制 文件 


#!/bin/bash 


# Rsyncs HBase files across all slaves. Must run on master. Assumes 
# all files are located in /usr/local 


app ee Levee sehen 


echo "usage: $(basename $0)< dir-name> < 1n-name>" 
echo " example: $(basename $0)hbase-0.1 hbase" 
exit 1 

fi 


SRC_PATH="/usr/local/$1/conf/regionservers" 
for srv in $(cat $SRC_PATH);do 
echo "Sending command to $srv..."; 
rsync -vaz --exclude='logs/ *' /usr/local/$1 $srv:/usr/local/ 
ssh $srv "rm -fR /usr/local/$2;1n -s /usr/local/$1 
/usr/local/$2" 
done 


echo "done." 


例 2.3 展 示 了 男 一 个 简单 的 脚本 ， 该 脚本 用 于 从 master 广 点 同 其 他 
所 有 slave 万 点 复制 HBase 配 置 文件 。 在 master 服 务 尹 上 编辑 过 配置 文件 
后 ， 通过 这 个 脚本 可 以 将 配置 文件 同步 到 所 有 region 服 务 屡 中。 


例 2.3 “示例 脚本 在 HBase 集 群 中 复制 文件 


#!/bin/bash 
# Rsync's HBase config files across all region servers. Must run on 
master. 


for srv in $(cat ss lad eg he te hemes do 
echo A command to $srv. 
rsync -vaz --delete --exclude= '10gs/ *' /usr/local/hadoop/ 


$srv:/usr/ ocal /hadoop/ 

rsync -vaz --delete --exclude='logs/ *' /usr/local/hbase/ 
$srv:/usr/ local/hbase/ 
done 


echo "done." 


这 个 脚本 与 第 一 个 脚本 类 似 ， 都 使 用 了 rsync ， 不 同 的 是 增加 了 -- 
delete 选项 以 确保 region 服 务 怖 不 会 保留 任何 旧 文 件 ， 但 是 旧 文 件 的 副 
本 会 你 留 在 原始 服务 器 中 。 


很 显然 ， 还 有 很 多 方法 可 以 做 到 这 一 点 ， 上 述 的 例子 仅仅 是 为 了 
方便 陪读。 用户 需要 管理 员 的 协助 ， 一 起 建立 一 套 机 制 来 保证 文件 的 
同步 。 许 多 初学 者 常常 磅 到 的 问题 都 是 由 于 集群 内 的 配置 不 一 致 引起 
的 ， 此 外 ， 更 新 配置 后 一 定 要 重启 才能 使 配置 生效 。 如 果 想 要 不 停机 
就 使 更 狐 的 配置 生效 ， 用 户 可 以 查阅 12.1.3 字 。 


2.7.2 Apache Whirr 
越 来 越 多 的 用 户 希 望 能 够 在 动态 环境 中 运行 HBase 集 群 ， 如 公开 云 


服务 平台 Amazon 的 EC2 或 Rackspace 云 服务 ， 或 者 是 使 用 类 似 于 
Eucalyptus 的 开源 工具 的 私有 服务 器 。 


这 种 方式 的 优点 是 能 够 快速 地 获取 集群 的 负载 并 加 以 分 析 汇 总 ， 
一 旦 结果 检索 完毕 ， 立 即 关 闭 集群 ， 或 者 集群 资源 还 可 以 被 其 他 服务 
所 利用 。 由 于 这 并 不 是 普通 的 程序 ， 其 需要 为 很 多 API 提 供 动态 集群 染 
构 ， 其 工作 量 可 能 很 大 ， 所 以 有 必要 抽象 出 一 个 集群 管理 层 。 一 但 集 
群 部 署 好 后 ， 用 户 就 可 以 像 在 本 地 静态 集群 上 一 样 执行 MapReduce 作 
业 。 以 上 就 是 Whirr 的 作用 。 


Whirr (详情 见 http://incubator.apache.org/whirr/@ ) 支持 各 种 公有 
和 私有 云 的 API， 并 提供 一 个 拥有 一 定 范围 服务 的 集群 。 其 中 的 功能 
并 能 够 快速 地 在 动态 环境 中 部 署 完 整 的 HBase 
集群 。 


用 户 可 以 通过 上 述 地 址 下 载 Whirr 的 最 新 版 本 ， 并 能 够 在 recipes 目 
录 中 找到 预定 义 的 配置 文件 ， 可 以 直接 使 用 并 动态 部 署 集群 。 


Whirr 的 基本 原理 是 使 用 操作 系统 提供 的 简单 机 器 镜像 和 和 SSH 访 
问 。 其 他 步 又 则 由 Whirr 针 对 需求 执行 ， 例 如 ， 按 Hadoop 或 HBase 服 务 
的 方式 处 理 。 每 个 远程 服务 右上 的 服务 都 会 执行 一 些 必 要 的 步骤 ， 例 
如 ， 创 建 用 户 账 户 、 下 载 和 安装 所 需要 的 软件 包 、 为 服务 编写 配置 文 
a a 用 户 可 以 根据 自己 的 需求 添加 需要 
9 步骤。 


2.7.3 Puppet Chef 


类 似 于 Whirr， 还 有 其 他 的 专用 部 署 框 染 。Puppet 出 目 Puppet 实 验 
28 (http://www.puppetlabs.com/ ) , Chef 出 自 Opscode ( 
http://www.opscode.com/chef/ ) ° 


两 者 相似 的 地 方 是 ， 所 有 配置 文件 都 保存 在 中 央 配 置 服务 器 中 ， 
每 台 客 户 端 服务 右 都 与 中 央 配 置 服务 右 连 接 ， 通 过 客户 端 软 件 监听 配 
置 的 更 新 并 合并 到 本 地 © 

类 似 于 Whirr， 上 述 两 者 都 有 recipes 的 概念 ， 本 质 上 会 转化 成 脚本 


或 命令 在 节点 上 执行 。 久 事实 上 ， 基 于 Puppet 或 Chef 的 进程 极 有 可 能 
取代 whirr 的 脚本 。 


Whirr 仅 用 于 引导 ，Puppet 和 Chef 还 可 用 于 变更 集群 ，master 进 程 监 
控 配 置 库 ， 并 检查 远程 是 否 更 新 ， 一 旦 发 生 更 新 则 触发 远程 操作 。 这 


可 以 协助 用 户 重 新 配置 集群 或 升级 新 版 本 ， 并 进行 滚动 重 局 等 操作 。 
Whirr 可 以 概括 为 配置 管理 ， 但 功能 并 不 局 限于 配置 管理 。 


一 想必 读者 以 前 听 过 : 选择 一 个 自己 熟悉 的 做 法 或 先 
择 一 个 自己 喜欢 的 做 法 。 两 者 的 目标 是 一 样 的 ， 即 安装 集群 
节点 中 所 需要 的 所 有 东西 。 如 果 用 户 需要 一 个 完整 的 、 实 时 
更 新 的 、 基 于 Puppet 或 Chef 的 配置 管理 解决 方案 ， 那 么 与 
Whir 结 合 使 用 是 正确 的 选择 。 


2.8 ”操作 集群 


如 采用 户 现 在 准备 第 一 次 启动 集群 ， 一 定 要 确认 服务 器 已 经 安装 
好 ， 并 配置 好 了 操作 系统 与 文件 系统 ， 此 外 还 要 确认 集群 所 需要 的 属 
性 在 配置 文件 中 都 已 经 配置 完成 。 


2.8.1 ”确定 安装 运行 


目 先 局 动 HDFS。 运 行 HADOOP_HOME Fx P A'bin/start-dfs.sh 与 
bin/stop-dfs.sh 可 以 启动 与 关闭 HDFS。 之 后 用 户 可 以 通过 put 与 get 文件 
来 验证 Hadoop 文 件 系 统 是 否 已 经 启动 成 功 。HBase 本 身 并 不 依赖 
MapReduce 守 护 进 程 ， 只 有 在 需要 运行 MapReduce 作 业 的 时 候 才 需要 局 
动 MapReduce 框 架 ， 具 体 细 市 见 第 7 章 。 


如 果 不 依 赖 HBase 管 理 ZooKeeper， 则 需要 确保 独立 的 ZooKeeper 已 
经 运行 ,否则 HBase 会 把 ZooKeeper 作 为 HBase 进 程 的 一 部 分 局 动 。 


如 采用 户 需 要 启动 单机 模式 请 查阅 2.1T， 局 动 完 全 分 布 式 模式 需 
要 如 下 命令 : 


bin/start-hbase.sh 


以 上 命令 需要 在 HBASE_HOME 目录 下 运行 。 如 果 HBase 已 经 
行 ， 可 以 在 logs 目录 的 子 日 录 中 找到 HBase 运 行 日 志文 件 。 AER 
现 HBase 没 有 按照 预期 运行 ， 请 参考 12.5.2 广 寻找 帮助 以 便 分 析 和 查找 
问题 原因 。 


一 旦 HBase 局 动 ， 关 于 如 何 建 表 、 添 加 数据 、 扫 描 已 插入 的 数据 、 
荣 用 表 和 删除 表 等 操作 部 可 以 在 2.1 廊 中 找到 帮助 信息 。 


2.8.2 Web UI 介绍 


HBase Master 默 认 基 于 Web 的 UI 服 务 端 口 为 60010，HBase region 服 
务 俘 默认 基于 Web 的 UI 服 务 端口 为 60030。 如 有 果 master 运 行 在 名 为 
master .foo,com 的 主机 中 ，master 的 主页 地 址 就 古 
http://master.foo.com: 60010 用 /可 以 通过 Web 浏 览 器 输入 
这 个 地 址 查看 该 页 面 。 图 2-2 展 示 了 页 面 显示 结果 ， 更 多 信息 见 6.5 季 。 


Soe Te Does ae 


D 
| | ): Master: localhost:60000 
HBASE 


Master Attributes 


ecto TEES Base Root Directory. Pes A ezm 8020/hbase 


Currently running tasks 
No tasks currently running on this node. 


Catalog Tables 


TT 


REE SET e e 


二 


pe (268435456, FAMILIES => {(NAME => ‘data’. BLOOMFILTER => ‘NONE’, REPLICATION_SCOPE => ‘0, COMPRESSION => ‘NONE’, 
[VERSIONS => '3', TTL => 2147483647, BLOCKSIZE => '65 


[amt DAMES => ‘usenable’, FAMILIES = => {NAME ME = 


‘3, TTL => 147483647 BLOCKSIZE => '65536', IN MEMORY => ‘false’, BLOCKCACHE = meh} 


= 

i 

“| 

; E', VER T TTL = LOC! > 6553 Smo 

= ~ {NAME => u user, "DEFERRED ) LOG. _FLUSH => ‘false’, ‘READONLY = ‘alse’, ‘MEMSTORE | FLUSHSIZE => 67108864.. MAX FILESIZE => | 
1 

| 

| 


Load is requests per second and count of regions loaded 


Regions in Transition 


No regions in transition. 


这 个 页 面 中 可 以 查看 HBase 集 群 的 当前 状态 。 
块 ， 页 面 顶 部 展示 了 集群 的 安装 信息 ，i 
。Catalog 与 User 表 展 示 了 所 有 可 用 的 表 ， 


(如 果 有 的 话 ) 


看 到 完整 的 表 结 构 。 


图 2-2 HBase Master 的 用 户 界面 


,BLOCKCACHE=> 'ue’}]} _ 
REPLICATION _ SCOPE => 出. VERSIONS >, 


He AD BT ATF 
还 可 以 看 到 当前 运行 的 任务 


从 这 里 可 以 


页 面 底部 显示 了 Region Servers 表 ， 展 示 了 当前 可 用 的 region 服 务 
右 。 最 底部 是 处 于 事务 状态 下 的 region， 这 些 region 当 前 可 能 处 于 系统 
维护 状态 。 


集群 启动 后 ， 用 户 不 仅 可 以 通过 页 面 检 查 region 服 务 器 是 否 都 已 经 
正常 注册 到 master， 并 以 期 望 的 主机 名 显示 在 页 面 中 《客户 端 能 够 连 
fe) ， 还 可 以 检查 当前 启动 的 HBase 与 Hadoop 版 本 是 否 正 确 。 


2.8.3 “Shell 介绍 


A 


通过 2.1 广 ， 你 可 以 使 用 HBase 提 供 的 Shell 命 令 行 ， 其 中 介绍 了 通 
过 命令 


行 模式 创建 表 、 新 增 和 更 新 数据 ， 以 及 删除 表 。 
HBase Shell 是 使 用 (J) Ruby (http://jruby.org ) 的 IRB 实 现 的 命令 


行 脚本 ，IRB 中 可 做 的 事情 在 HBase Shell 中 也 可 以 完成 。 通 过 以 下 命令 


$ $HBASE HOME/bin/hbase shell 


HBase Shell;enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 


Version 0.91.0-SNAPSHOT, r1130916,Sat Jul 23 12:44:34 CEST 2011 


hbase(main) :001:0> 


输入 help FEER fe as 2 tA Shelli AIK © Da ae AR BIT 
档 可 以 看 到 每 个 具体 的 命令 参数 的 用 法 (变量 、 命 令 参 数 ) ; 等 别 注 
意 怎 样 引用 表 名 、 行 键 、 列 名 等 。6.4 市 详细 介绍 了 Shell 的 相关 内 容 。 


由 于 HBase Shell 是 基于 Ruby 实 现 的 ， 因 此 在 使 用 过 程 中 可 以 将 
HBase 命 令 与 Ruby 代 码 混 合 使 用 ， 你 可 以 按照 如 下 方式 使 用 : 


hbase(main):001:0> create 'testtable', 'colfami' 


hbase(main):002:0> for i in 'a'..'z' do for j in ‘a'..'z' do \ 


put 'testtable', "row-#{i}#{j}", "colfam1:#{j}", "#{j}" end end 


第 一 行 命令 是 创建 一 张 叫 testtable 的 表 ， 并 创建 一 个 叫 
colfam1 的 列 族 名 ， 列 族 的 属性 都 使 用 默认 属性 (详情 见 5.1.3 节 ) 
第 二 行 命令 是 用 Ruby 人 代码 循 环 插 入 多 行 数据 到 刚刚 创建 的 表 中 。 行 键 
开始 于 row-aa、row-ab ， 终 止 于 row-zz 。 


2.8.4 关闭 集群 


”运行 以 下 命令 可 以 停止 HBase 集 群 。 一 旦 局 动 了 这 个 脚本 ， 你 将 会 
看 到 一 条 朱 述 集群 正在 俘 止 鸭 信息 ， 该 信息 会 周期 性 地 打印 “.” 字 符 
， 并 不 是 运行 进度 的 反馈 或 隐藏 的 有 用 信 


gin 


$ ./bin/stop-hbase.sh 


stopping hbase 


关闭 脚本 大 概 需 要 几 分 钟 完成 。 如 果 集 群 中 机 器 数量 很 多 ， 那 么 
执行 时 间 可 能 更 长 。 如 果 用 户 运 行 的 是 分 布 式 模式 ， 在 天 闭 Hadoop 集 
群 之 前 一 定 要 确认 HBase 已 经 被 正常 关闭 了 。 

第 12 章 中 有 许多 更 高 级 的 管理 功能 ， 如 滚动 重启 、 增 加 masterT 点 


等 。 如 果 集 群 无 法 启动 或 关闭 ， 第 12 章 里 也 有 相关 信息 ， 说 明 如 何 分 
析 和 解决 这 些 问题 。 


O tl;dr 是 英文 “too long; didn’t read” 的 缩写 ， 意 思 是 “大 长 ， 别 读 ”。 一 一 
HEIE 


@ 见 维基 百科 中 的 “Multi-core processor” ( 
http://en.wikipedia.org/wiki/Multi-core ) 


见 维基 百科 中 的 “RAID” ( http://en/wikipedia.org/wiki/RAID ) ° 


@ 
© 见 维基 百科 中 的 “JBOD” ( http://en/wikipedia.org/wiki/JBOD#JBOD 
) 


° 


© 1X BER SER Ns LISMIOPS AN 100K, AAR RIKARE 
fay Ee IL Be WL 100 MB/s ° 


© DistroWatch ( http://distrowatch.com/) 有 一 个 Linux 或 类 Linux 操 作 系 
统 的 流行 列表 并 按照 流行 程度 进行 了 排名 。 


© 在 Ars Technica 网 站 上 看 到 的 招聘 信息 ，Google 聘 请 了 ext4 的 主要 开 
发 者 Theodore Ts'o。 他 宣布 继续 专注 于 ext4 和 其 他 的 Linux 内 核 功 能 的 
人 研发 。 


查阅 分 支 branch-0.20-append 的 CHANGES.txt ( 
http:/svn.apache.org/viewvc/hadoop/common/branches/branch-0.20- 


append/CHANGES.txt ) 文件 可 以 看 到 所 有 新 增 的 补丁 。 


@ 这 本 书 出 版 后 ， 信 息 发 生 更 改 是 很 正常 的 ， 有 关 详 情 和 最 新 细节 都 
可 以 在 配置 向 导 页 面 http:/hbase.apache.org/book/configuration.html 中 
查询 ， 尤 其 是 http://hbase.apache.org/book/hadoop.html 这 一 他 ° 


http:/www.cloudera.com/blog/2009/03/configuration-parameters-what- 
can-you-just-ignore/ 是 篇 来 自 Aaron Kimball 的 博文 ， 名 为 “What can you 
just ignore?”， 它 可 以 帮助 用 户 在 Hadoop 集 群 中 设置 配置 参数 。 


QD 见 维基 百科 的 “Uniform Resource Identifier” ( 
http://en.wikipedia.org/wiki/Uniform_Resource_Identifier ) ° 


(12) 完整 列表 已 经 在 Tom White 的 文章 “Get to Know Hadoop 
Filesystems” 中 介绍 过 了 。 


(13) 点 击 链接 http://en.wikipedia.org/wiki/Amazon_S3 ， 可 以 查看 更 多 有 关 
Amazon $3 的 背景 信息 。 


见 维基 百科 的 EC2 。 


(15) 见 链接 https://issues.apache.org/jira/browse/HBASE ? 
report=com.atlassian.jira.plugin.system.project:changelog-panel ° 


见 链接 https://issues.apache.org/jira/browse/HBASE ? 
report=com.atlassian.jira.plugin.system.project: changelog- 
panel#selectedTab=com.atlassian.jira.plugin.system.project%3Achangelog- 
panel ° 


外 进程 以 守护 模式 在 后 台 运行 ， 不 会 因为 执行 的 任务 终止 而 停止 运 
行 。 


伪 分 布 式 与 完全 分 布 式 的 概念 来 源 于 Hadoop。 


ZooKeeper 的 完整 配置 列表 可 在 zoo.cfg 中 见 到 。HBase 默 认 不 之 这 个 
文件 ， 所 以 需要 用 户 自己 去 ZooKeeper 的 网 站 浏览 conf 目录 并 下 载 。 


编辑 XML 时 要 训 慎 ， 确 人 所 有 的 元 系 都 已 经 关闭 ， 用 户 可 以 通过 
工具 进行 检查 ， 以 确保 编辑 会 话 后 XML 仍 保持 一 个 民 
y 工 o 


OD 编辑 完 配 置 后 ， 一 定 要 重启 服务 器 ， 但 这 种 工作 模式 随 着 时 间 的 推 
移 会 改变 。 


22) 请 注意 Whirr 是 一 个 Apache 基 金 会 县 化 的 项 目 ， 一 有 旦 被 Apache 社 区 接 
受 并 普 升 为 社区 正式 成 员 ， 葡 会 被 转移 到 一 个 受 Apache 保 护 的 、 完 整 
且 永 从 有 歼 的 网 址 中 。 


@3 一 些 可 用 的 配置 包 是 为 了 适应 早期 的 EC2 脚 本 创建 的 ， 被 用 于 部 署 
HBase 到 动态 云 平台 中 。 有 关 Chef 的 详情 用 户 可 以 查阅 网 页 
http://cookbooks.opscode.com/cookbooks/hbase 。 有 天 Puppet 用 户 可 以 查 
si] http://hstack.org/hstack-automated-deployment-using-puppet/ 和 
http://github.com/hstack/puppet ° 


第 3 章 ZAPI: 基础 知识 


本 章 将 会 介绍 HBase 提 供 的 客户 端 API。 在 前 文 提 到 过 ， HBase 是 
使 用 Java 编 写 的 ， 所 以 原生 的 API 也 是 Java 开 发 的 ， 不 过 这 并 不 意味 着 
必须 通过 Java 访 问 HBase。 我 们 会 在 第 6 章 介 绍 如 何 通过 其 他 编程 语言 
使 用 HBase 。 


3.1 概述 


HBase 的 主要 客户 端 接口 是 由 
org.apache.hadoop.hbase.client 包 中 的 HTable 类 提供 的 ， 
通过 这 个 类 ， 用 户 可 以 完成 向 HBase 存 储 和 检索 数据 ， 以 及 删除 无 效 数 

功能 。 


所 有 修改 数据 的 操作 都 保证 了 行 级 别 的 原子 性 ， 这 会 影响 到 这 一 
行 数据 所 有 的 并 发 读 写 操作 。 换 句 话 说 ， 其 他 客户 端 或 线程 对 同一 行 
的 读 写 操作 都 不 会 影响 该 行 数据 的 原子 性 ， 要 么 读 到 最 新 的 修改 ， 要 
么 等 待 系统 允许 写 入 该 行 修改 。 更 多 内 容 请 参考 第 8 章 。 了 


通 单 ， 在 正音 负 载 和 钊 规 操 作 下 ， 客 户 端 读 操 作 不 会 受到 其 他 修 
改 数 据 的 客户 端 影响 ， 因 为 它们 之 间 的 冲突 可 以 忽略 不 计 。 但 是 ， 当 
许多 客户 问 需 要 同时 修改 同一 行 数据 时 就 会 产生 问题 。 所 以 ， 用 户 应 
ee Oe ee ee ee 


写 操作 中 涉及 的 列 的 数目 不 会 影响 该 行 数据 的 原子 性 ， 行 原子 性 
会 同时 保护 到 所 有 列 。 


最 后 ， 创 建 HTable 实例 是 有 代价 的 。 每 个 实例 都 需要 扫 
接 ,META. 表 ， 以 检查 该 表 是 否 存 在 、 是 否 可 用 ， 此 外 还 要 执行 一 些 其 
他 操作 ， 这 些 检查 和 操作 导致 实例 调用 非常 耗 时 。 因 此 ， 推 荐 用 户 只 
创建 一 次 HTable 实例 ， 而 且 是 每 个 线程 创建 一 个 ， 然 后 在 客户 端 应 用 
的 生存 期 内 复 用 这 个 对 象 。 


如 果 用 户 需 要 使 用 多 个 HTable 实例 ， 应 考虑 使 用 HTab1LePool 
类 (详情 见 4.4 节 ) ， 它 为 用 户 提供 了 一 个 复 用 多 个 实例 的 便捷 方式 。 


wa, 
BAX 
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和 以 下 是 我 们 刚才 讨论 内 容 的 几 点 总 结 。 


。 只 创建 一 次 HTable 实例 ， 一 般 在 应 用 程序 开始 时 创 
建 。 


。 为 执行 的 每 一 个 线程 〈 或 者 所 使 用 的 HTablePoo1l ) 创 
建 独立 的 HTable 实例 。 


。 所 有 的 修改 操作 只 保证 行 级 别 的 原子 性 。 


3.2 CRUD 操作 


数据 库 的 初始 基本 操作 通常 被 称 为 CRUD (Create, Read, 
Update, Delete) ， 具 体 指 增 、 查 、 改 、 删 。HBase 中 有 与 之 相对 应 的 
一 组 操作 ， 随 后 我 们 会 依次 介绍 。 这 些 方法 都 由 HTable 类 提供 ， 本 章 
后 面 将 直接 引用 这 个 类 的 方法 ， 不 再 特别 提 到 这 个 包含 类 。 


接 下 来 介绍 的 操作 大 多 都 能 不 言 目 明 ， 但 本 书 有 一 些 细节 需要 大 
家 注意 。 这 和 意味 着 ， 对 于 书 中 出 现 的 一 些 重复 的 模式 ， 我 们 不 会 多 次 


一 


一 人 你 所 看 到 的 示例 源 代码 都 可 以 从 GitHub 的 公用 源 中 
下 载 ， 具 体 地 址 为 https://github.com/larsgeorge/hbase-book -° 
如 果 需 要 了 解 源码 编译 的 细 届 ， 请 参考 前 言 中 的 “编译 示例 
程序 六 


读者 一 开始 会 在 一 些 程序 的 开头 看 到 import 语句 ， 但 
为 了 简洁 ， 后 续 将 会 省 略 import 语句 。 同 时 ， 一 些 与 主题 
不 太 相 关 的 代码 部 分 也 会 被 省 略 。 如 有 疑问 ， 请 到 上 面 的 地 
址 中 查阅 完整 源 代码 。 


3.2.1 put 方法 

下 面 介绍 的 这 组 操作 可 以 被 分 为 两 类 : 一 类 操作 用 于 单行 ， 另 一 
类 操作 用 于 多 行 。 鉴 于 后 面 有 一 些 内 容 比 较 复杂 ， 我 们 会 分 开 介绍 这 
两 类 操作 。 同 时 ， 我 们 还 会 介绍 一 些 衍生 的 客户 端 API 特 性 。 
1. 单行 put 


也 许 你 现在 最 想 了 解 的 就 是 如 何 向 HBase 中 存储 数据 ， 下 面 就 是 实 
现 这 个 功能 的 调用 : 


void put(Put put) throws IOException 


这 个 方法 以 单个 Put 或 存储 在 列表 中 的 一 组 Put 对 象 作为 输入 参 
数 ， 其 中 Put 对 象 是 由 以 下 几 个 构造 画 数 创建 的 ， 


Put(byte[] row) 
Put(byte[] row, RowLock rowLock) 


Put(byte[] row, long ts) 
Put(byte[] row, long ts, RowLock rowLock) 


创建 Put 实例 时 用 户 需要 提供 一 个 行 键 row ， 在 HBase 中 每 行 数据 
都 有 唯一 的 行 键 (row key) 作为 标识 ， 跟 HBase 的 大 多 数 数据 类 型 一 
样 ， 它 是 一 个 Java 的 byte[] 数组 。 用 户 可 以 按 自己 的 需求 来 指定 每 行 
的 行 键 ， 且 可 以 参考 第 9 章 ， 其 中 专门 有 一 站 详细 讨论 了 行 键 的 设计 
(W917) 。 现 在 我 们 假设 用 户 可 以 随意 设置 行 键 ， 通 常情 况 下 ， 行 
键 的 含义 与 真实 场景 相关 ， 例 如 ， 它 的 含义 可 以 是 一 个 用 户 名 或 者 订 
单 号 ， 它 的 内 容 可 以 是 简单 的 数字 ， 也 可 以 是 较 复 杂 的 UUID 2 等 。 


HBase 非 常 友好 地 为 用 户 提供 了 一 个 包含 很 多 静态 方法 的 辅助 类 ， 
这 个 类 可 以 把 许多 Jav 吉 据 半 弄 转换 为 byte[] BHA + PIBER TAI 
9 部 分 清单 。 


例 3.1 Bytes 类 所 提供 的 方法 


toBytes(ByteBuffer bb) 
toBytes(String s) 
toBytes(boolean b) 
toBytes(long val) 


toBytes(float f) 
toBytes(int val) 


创建 Put 实例 之 后 ， 束 可 以 向 该 实例 添加 数据 了 ， 添 加 数据 的 方 


add(byte[] family, byte[] qualifier, byte[] value) 
add(byte[] family, byte[] qualifier, long ts, byte[] value) 
add(KeyValue kv) throws IOException 


每 一 次 调用 add( ) 都 可 以 特定 地 添加 一 列 数据 ， 如 果 再 加 一 个 时 
间 惟 选项， 束 能 形成 一 个 数据 单元 格 。 注 意 ， 当 不 指定 时 间 惟 调用 
add() 方法 时 ，Put 实例 会 使 用 来 目 构 造 画 数 的 可 选 时 间 稚 参数 (也 


称 作 ts ) ， 如 果 用 户 在 构造 Put 实例 时 也 没有 指定 时 间 戳 ， 则 时 间 戳 
将 会 由 region 服 务 做 设 定 。 


系统 为 一 些 高 级 用 户 提供 了 KeyValue 实例 的 变种 ， 这 里 所 说 的 
高 级 用 户 是 指 知道 怎样 检索 或 创建 这 个 内 部 类 的 用 户 。KeyValue 实 
例 代表 了 一 个 唯一 的 数据 单元 格 ， 类 似 于 一 个 协调 系统 ， 该 系统 使 用 
行 键 、 列 族 、 列 限定 符 、 时 间 礁 指向 一 个 单元 格 的 值 ， 像 一 个 三 维 立 
方 体系 统 (其 中 ， 时 间 成 为 了 第 三 维度 ) 。 


获取 Put 实例 内 部 添加 的 KeyValue 实例 需要 调用 与 add( ) 相反 
的 方法 get ( ) : 


List< KeyValue> get(byte[] family, byte[] qualifier) 
Map< byte[], List< KeyValue>> getFamilyMap() 


以 上 两 个 方法 可 以 查询 用 户 之 前 添加 的 内 容 ， 同 时 将 特定 单元 格 
的 信息 转换 成 KeyValue 实例 。 用 户 可 以 选择 获取 整个 列 族 (column 
family) 的 全 部 数据 单元 ， 一 个 列 族 中 的 特定 列 或 是 全 部 数据 。 后 面 的 
getFamilyMap() 方法 可 以 遍历 Put 实例 中 每 一 个 可 用 的 KeyValue 
实例 ， 检 查 其 中 包含 的 详细 信息 。 
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”每 一 个 KeyValue 实例 包含 其 完整 地 址 ( 行 键 、 列 
族 、 列 限定 符 及 时 间 惟 ) 和 实际 数据 。KeyValue 是 HBase 
在 存储 架构 中 最 底层 的 类 。8.2 节 将 会 详细 介绍 相关 内 容 。 对 
于 客户 端 API 所 用 到 的 KeyValue 类 中 的 方法 参见 3.2.1 节 © 


用 户 可 以 采用 以 下 这 些 方法 检查 是 否 存 在 特定 的 单元 格 ， 而 不 需 
要 遍历 整个 集合 : 


has(byte[] family, byte[] qualifier) 
has(byte[] family, byte[] qualifier, long ts) 


has(byte[] family, byte[] qualifier, byte[] value) 
has(byte[] family, byte[] qualifier, long ts, byte[] value) 


随 着 以 上 方法 所 使 用 参数 的 逐步 细 化 ， 获 得 的 信息 也 越 详细 ， 当 
找到 匹配 的 列 时 返回 true。 第 一 个 方法 仅 检查 一 个 列 是 否 存在 ， 其 他 
的 方法 则 增加 了 检查 时 间 戳 、 限 定 值 的 选项 。 

Put 类 还 提供 了 很 多 的 其 他 方法 ， 在 表 3-1 中 进行 了 概括 。 


表 3-1 Put 类 提供 的 其 他 方法 一 览 表 


返回 当前 put 实例 的 行 RowLock 实例 


j Sy, 已 
: 1 f A 


许 关闭 的 服务 器 端 预 写 日 志 
getwriteTowAL() | 返回 代表 是 否 启用 了 WAL 的 什 


etme tami 返回 相应 Put 实例 的 时 间 戳 ， 该 值 可 在 构造 函数 
9 PY | 入 。 当 未 被 设 定 时 返回 Long . MAX_VALUE 


heapSize() 计算 当前 put 实例 所 需 的 堆 大 小 ， 既 包含 其 
á 部 数据 结构 所 需 的 空间 


isEmpty() 仿 测 FamilyMap 是 否 含有 任何 Keyvalue 实例 


numFamilies() 查询 FamilyMap 的 大 小 ， 即 所 有 的 keyvalue 实例 1 列 族 的 个 数 


返回 本 次 put 会 添加 的 keyvalue 实例 的 数量 


Wa 
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”注意 ， 表 3-1 所 列 的 Put 类 中 的 那些 getter 函 数 仅 能 
够 获取 用 户 预 完 设 定 的 内 容 ， 实 际 应 用 中 很 少 用 到 它们 ， 仪 


SASHA Ais Ee UP Put 实例 ， 并 在 其 
他 地 方 检查 其 内 容 时 ， 才 会 用 到 它们 。 


例 3.2 展 示 了 如 何在 一 个 简单 的 程序 里 使 用 上 述 方 法 。 


一 一 本 章 的 示例 使 用 了 一 个 非常 有 限 的 精确 数据 集 。 当 
读者 查看 整个 源 代码 时 ， 会 注意 到 源 代码 使 用 了 一 个 名 叫 
HBaseHelper 的 内 部 类 。 该 内 部 类 会 创建 一 个 有 特定 行 和 
列 数量 的 数据 测试 表 。 这 让 我 们 更 容易 对 比 处 理 前 后 的 差 
o 

读者 可 以 将 代码 直接 放 到 本 地 主机 上 的 独立 HBase 实 例 
中 来 测试 ， 也 可 以 放 到 HBase 集 群 上 测试 。 前 言 中 的 “编译 示 
例 程序 ”一 节 解 释 了 如 何 编译 这 些 例子 。 读 者 可 以 大 胆 地 修 
改 这 部 分 代码 ， 以 便 更 好 地 体会 各 部 分 功能 。 


为 了 清除 前 一 步 示例 程序 执行 时 产生 的 数据 ， 示 例 代码 
通常 会 删除 前 一 步 执行 时 所 创建 的 表 。 如 果 你 在 生产 集群 上 
运行 示例 ， 请 先 确 保 表 名 无 冲突 。 通 常 示例 代码 创建 的 表 为 
testtable ， 这 个 名 称 容 易 让 人 联想 到 表 的 用 途 。 


例 3.2 ”向 HBase 揪 入 数据 的 示例 应 用 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 


import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 
import org.apache.hadoop.hbase.util.Bytes; 


import java.io.I0Exception; 
public class PutExample { 


public static void main(String[] args) throws IOException { 
Configuration conf = HBaseConfiguration.create();@ 


HTable table = new HTable(conf,"testtable");@ 
Put put = new Put(Bytes.toBytes("rowi"));® 


put.add(Bytes.toBytes("colfami"),Bytes.toBytes("quali"), 
Bytes.toBytes("vali"));@ 

put.add(Bytes.toBytes("colfami"),Bytes.toBytes("qual2"), 
Bytes.toBytes("val2"));® 


table.put(put); © 


} 
} 


@ 创建 所 需 的 配置 。 

@ 实例 化 一 个 新 的 客户 端 。 

© 指定 一 行 来 创建 一 个 Put 。 

O Put 中 添加 一 个 名 为 “colfam1:qual1” 的 列 。 

日 Put 中 添加 男 一 个 名 为 “colfam1:qual2” 的 列 。 

O 将 这 一 行 存储 到 HBase 表 中 。 

这 个 示例 代码 ULAR) 十 分 完整 ， 并 且 每 一 行 都 进行 了 解释 。 以 


后 的 示例 会 逐渐 减少 样板 代码 ， 以 便 读者 能 将 注意 力 集 中 到 重要 的 部 
2 


通过 客户 端 代码 访问 配置 文件 


2.6.7 万 介绍 了 HBase 客 户 端 应 用 程序 使 用 的 配置 文 
件 。 应 用 程序 需要 通过 默认 位 置 (classpath) 下 的 hbase- 
site.xml 文件 来 获知 如 何 访 问 集 群 ， 此 外 也 可 以 在 代码 里 指 
定 集群 的 地 址 。 


无 论 哪 种 方式 ， 都 需要 在 代码 中 使 用 一 个 
HBaseConfiguration 类 来 处 理 配 置 的 属性 。 可 以 使 用 
该 类 提供 的 以 下 静态 方法 构建 Configuration 实例 : 


static Configuration create() 
static Configuration create(Configuration that) 


例 3.2 中 使 用 了 create( ) 来 获得 Configuration 实 
例 。 第 二 个 方法 允许 你 使 用 一 个 已 存在 的 配置 ， 该 配置 会 
融合 并 覆盖 HBase 默 认 配 置 。 

当 你 调用 任何 一 个 静态 create( ) 方法 时 ， 代 码 会 党 
试 使 用 当前 的 Java classpath 来 载 入 两 个 配置 文件 : hbase- 


default.xml 和 jbase-site.xml ° 


如 果 使 用 create(Configuration that) 方法 指 
定 一 个 已 存在 的 配置 ， 那 么 与 所 有 从 classpath 载 入 的 配置 
相 比 ， 用 户 指定 的 配置 优先 级 最 高 。 


HBaseConfiguration 类 继承 自 Hadoop 的 
Configuration 类 ,但 是 HBaseConfiguration 类 仍 
然 和 Configuration 类 兼容 : 用户 可 以 提交 一 个 Hadoop 
的 Configuration 实例 ， 它 们 的 内 容 可 以 很 好 地 合并 。 


当 用 户 获得 了 一 个 HBaseConfiguration 实例 之 
后 ， 其 实 已 获得 了 一 个 已 经 合并 过 的 配置 ， 其 中 包括 默认 
值 和 在 hbase-site.xml 配置 文件 中 重 写 的 属性 ， 以 及 一 些 用 
户 提交 的 可 选 配 置 。 在 使 用 HTable 实例 之 前 ， 用 户 可 以 
任意 地 修改 配置 。 例 如 ， 可 以 重 写 ZooKeeper 的 可 用 连接 
地 址 来 定位 到 另 一 个 集群 : 


Configuration config = HBaseConfiguration.create(); 


config.set("hbase.zookeeper. quorum", "zk1.fo00.com, zk2.f00.com"); 


换 句 话说 ， 可 以 简单 地 忽略 任何 外 部 的 客户 端 配置 文 
件 ， 而 直接 在 代码 中 设置 hbase .zookeeper .quorum 
属性 。 这 样 就 创建 了 一 个 不 需要 额外 配置 的 客户 端 。 


同时 应 该 共享 配置 实例 ，4.6 节 解释 了 这 样 做 的 原因 。 


现在 又 可 以 使 用 Shell 命 令 行 《详情 见 2.1 节 ) 来 验证 插入 是 否 成 功 


hbase(main) :001:0>list 


TABLE 
testtable 
1 row(s) in 0.0400 seconds 


hbase(main):002:0>scan 'testtable' 


ROW COLUMN+CELL 

row 
column=colfam1: quali, timestamp=1294065304642, value=val1 
1 row(s) in 0.2050 seconds 


在 创建 Put 实例 时 用 到 的 另 一 个 可 选 参数 是 ts ， 即 时 间 惟 
(timestamp) 。 在 HBase 表 中 ， 时 间 戳 使 用 户 可 以 在 HBase 表 中 将 数据 
存储 为 一 个 特定 版 本 。 


数据 的 版 本 化 


HBase 的 一 个 特殊 功能 是 ， 能 为 一 个 单元 格 (一 个 特 
定 列 的 值 ) 存储 多 个 版 本 的 数据 。 这 是 通过 每 个 版 本 使 用 
一 个 时 间 戳 。 并 且 按 照 降 序 存储 来 实现 的 。 每 个 时 间 稚 是 
一 个 长 整 型 值 ， 以 宫 秒 为 单位 。 它 表示 上 自 世 界 标准 时 间 

(UTC) 1970 年 1 月 1 日 0 时 以 来 所 经 过 的 时 间 ， 这 个 时 间 
又 称 为 Unix 时 间 ® 或 Unix 纪 元 。 大 多 数 操作 系统 都 有 一 个 
时 钟 获取 函数 来 读 取 这 个 时 间 。 例 如 ， 在 Java 中 可 以 使 用 
System.currentTimeMillis() 函数 。 


将 数据 存 和 人 HBase 时 ， 要 么 显 式 地 提供 一 个 时 间 惟 ， 
要 么 忽略 该 时 间 惟 。 如 采用 户 忽 上 略 该 时 间 礁 的 话 ， 
RegionServer 会 在 执行 put 操作 的 时 候 填 充 该 时 间 戳 。 
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互相 之 间 是 同步 的 。 用 户 可 能 无 法 控制 客户 端 时 间 ， 所 以 
很 可 能 会 与 服务 器 时 间 不 同 ， 可 能 会 相差 几 小 时 甚至 相差 
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如 全 用 户 不 指定 时 间 ， 那 么 客户 端 API 调 用 会 以 服务 
器 端 时 间 为 准 。 一 旦 需要 使 用 并 指定 明确 的 时 间 礁 ， 用 户 
需要 确保 不 受 一 些 可 能 发 生 的 意外 的 影响 。 客 户 端 可 能 会 
使 用 意 想不到 的 时 间 稚 来 插入 数据 ， 从 而 产生 看 似 无 序 的 
版 本 历史 。 


虽然 大 多 数 程序 并 不 担心 版 本 化 问题 ， 并 且 依 赖 于 
HBase 内 置 的 处 理 时 间 玲 的 方法 ， 但 是 如 末 要 使 用 目 定 义 
的 时 间 惟 ， 就 应 该 了 解 这 些 特性 。 


下 面 展示 了 如 何 癌 一 个 单元 格 插 入 并 且 获 取 多 版 本 数 
isi ° 


hbase(main):001:0> create 'test', 'cf1 


© row(s) in 0.9810 seconds 


hbase(main):002:0> put 'test', 'row1', 'cf1i','val1' 


© row(s)in 0.0720 seconds 


hbase(main):003:0> put 'test', 'row1', 'cf1', 'val2' 


© row(s) in 0.0520 seconds 


hbase(main):004:0> scan 'test' 


ROW COLUMN+CELL 
row column=cf1:, timestamp=1297853125623, value=val2 
1 row(s) in 0.0790 seconds 


hbase(main):005:0> scan 'test',{ VERSIONS => 3 } 


ROW COLUMN+CELL 
row column=cf1:, timestamp=1297853125623, value=val2 
row column=cf1i:, timestamp=1297853122412, value=val1 
1 row(s) in 0.0640 seconds 


该 示例 在 test 表 中 创建 了 一 个 名 为 cf1 的 列 族 。 两 
个 put 命令 使 用 了 相同 的 行 键 和 列 键 ， 但 它们 的 值 不 同 : 
分 别 为 val1 和 val2 。 然 后 使 用 scan 操作 查看 了 这 张 表 
的 所 有 内 容 。 你 可 能 并 不 惊讶 于 只 看 到 了 val2 ， 因 为 你 
可 能 已 经 假设 第 二 次 put 操作 和 覆盖 了 vall1 。 


但 是 在 HBase 中 并 不 是 这 样 的 。 稚 认 情 况 下 ，HBase 会 
保留 3 个 版 本 的 数据 ， 用 户 可 以 利用 这 种 特性 ， 稍 稍 修改 
scan 操作 以 便 获取 所 有 可 获得 的 数据 〈 即 版 本 ) 。 示 例 
中 的 最 后 一 个 命令 列 出 了 所 有 存储 的 数据 版 本 。 注 意 ， 即 
使 所 有 输出 的 行 键 都 是 相同 的 ， 在 Shel 的 输出 中 ， 所 有 的 
单元 格 都 生 以 单独 的 一 行 输出 的 。 


scan 操作 和 get 操作 只 会 返回 最 后 的 〈 也 叫 最 新 
的 ) 版 本 ， 这 是 因为 HBase 默 认 按照 版 本 的 降序 存储 ， 并 
且 只 返回 一 个 版 本 。 在 调用 中 加 入 最 大 版 本 (maximum 
version) 参数 就 可 以 获得 多 个 版 本 的 数据 ， 如 果 将 参数 值 


设 定 为 Integer .MAX_VALUE ， 就 可 以 获得 所 有 的 版 
本 o 


正如 最 大 版 本 的 术语 所 表现 出 来 的 意思 一 样 ， 对 于 一 
个 特定 的 单元 格 ， 有 可 能 只 有 少 于 最 大 版 本 数 个 数 版 本 。 
示例 将 VERSIONS (MAX_VERSIONS 的 缩写 ) 设 为 3， 但 
是 该 单元 格 只 存储 了 两 个 版 本 的 数据 ， 所 以 就 列 出 了 两 


AN o 


男 一 个 获取 多 个 版 本 数据 的 方法 是 ， 使 用 时 间 范 围 参 
数 。 只 需要 设置 开始 时 间 和 结束 时 间 ， 就 能 获得 所 有 满足 
时 间 范 围 的 版 本 数据 。 更 多 有 关 这 一 方面 的 内 容 ， 请 参考 
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关于 版 本 化 ， 有 很 多 细小 《有 些 也 不 算 小 ) 的 问题 ， 
将 在 8.4 节 继续 讨论 ， 而 且 还 会 在 9.6 季 重新 讨论 更 高 级 的 
概念 ， 以 及 不 标准 的 行为 。 


如 琳 读 者 不 指定 该 参数 ， 当 数据 存储 到 压 层 文件 系统 时 ， 
RegionServer 会 将 当前 行 的 时 间 崔 隐 式 地 设 定 为 系统 当前 时 间 。 


Put 类 的 构造 画 数 还 有 一 个 名 为 rowlock 的 可 选 参数 ， 它 允许 提 
交 一 个 额外 的 行 锁 (row lock) ， 详 见 3.4 节 。 最 后 还 要 说 一 句 ， 阁 需 
要 频繁 地 重复 修改 某 些 行 ， 用 户 有 必要 创建 一 个 RowLock 实例 来 防止 
其 他 客户 只 访问 这 些 行 。 


2. KeyValue 类 


在 代码 中 有 时 需要 直接 处 理 KeyValue 实例 。 你 可 能 还 记得 之 前 
讨论 过 的 那些 实例 ， 它 们 都 含有 一 个 特定 单元 格 的 数据 以 及 坐标 
(coordinate) 。 坐 标 包 括 行 键 、 列 族 名 、 列 限定 符 以 及 时 间 崔 。 该 类 


提供 了 特别 多 的 构造 融 ， 人 允许 以 各 种 方式 组 合 这 些 参数 。 下 面 展 示 了 
包括 所 有 参数 的 构造 郁 : 


KeyValue(byte[] row, int roffset, int rlength, 
byte[] family, int foffset, int flength, byte[] qualifier, int 
goffset, 


int qlength, long timestamp, Type type, byte[] value, int 
voffset, 
int vlength) 
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"建议 将 KeyValue 类 和 它 的 比较 器 都 设计 为 HBase 
内 部 使 用 。 只 在 客户 端 API 的 几 个 地 方 出 现 ， 以 便 用 户 访问 
原始 数据 ， 这 样 可 以 避免 额外 的 复制 操作 。 还 可 以 允许 基于 
字 节 的 比较 ， 而 不 是 依靠 比较 慢 的 基于 类 的 比较 。 


数据 和 坐标 都 是 以 Java 的 byte[] 形式 存储 的 ， 即 以 字 市 数组 的 形 
式 存储 的 。 使 用 这 种 的 层 存 储 类 型 的 目的 是 ， 人 允许 存储 任意 类 型 的 数 
据 ， 并 且 可 以 有 效 地 只 存储 所 需 的 字 市 ， 这 保证 了 最 少 的 内 部 数据 结 
构 开 销 。 另 一 个 原因 是 ， 每 一 个 字 世 数组 都 有 一 个 offset 参数 和 一 个 
length 参数 ， 它 们 人 允许 用 户 提交 一 个 已 存在 的 字 世 数组 ， 并 进行 效率 
很 高 的 字 节 级 别 的 操作 。 


坐标 中 任意 一 个 成 员 都 有 一 个 getter 方 法 ， 可 以 获得 字 节 数组 以 及 
它们 的 参数 offset Mlength 。 不 过 也 可 以 在 最 顶层 访问 它们 ， 即 直 
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byte[] getBuffer() 
int getOffset() 


int getLength() 


它们 返回 当前 KeyValue 实例 中 字 节 数组 完整 信息 。 用 户 用 到 这 
些 方法 的 场景 很 少 ， 但 是 在 需要 的 时 候 ， 还 是 可 以 使 用 这 些 方法 的 。 


byte [] getRow() 


byte [] getKey() 


读者 也 许 会 问 这 样 一 个 问题 : 行 (row) 和 键 (key) 有 什么 区 
AN? 关于 它们 的 区 别 将 在 8.2 节 中 描述 。 行 目前 来 说 指 的 是 行 键 ， 即 
Put 构造 器 里 的 row 参数 。 而 在 之 前 介绍 的 内 容 中 ， 键 是 一 个 单元 格 
的 坐标 ， 用 的 是 原始 的 字 节 数组 格式 。 在 实践 中 ， 几 乎 用 不 到 
getKey() ， 但 有 可 能 会 用 到 getRow( ) ° 


KeyValue 类 还 提供 一 系列 实现 了 Comparator 接口 的 内 部 类 ， 
可 以 在 代码 里 使 用 它们 来 实现 与 HBase 内 部 一 样 的 比较 器 。 当 需要 使 用 
API 获 取 KeyValue 实例 时 ， 并 进一步 排序 或 按 顺序 处 理 时 ， 就 要 用 到 
这 些 比 较 器 。 表 3-2 列 出 了 这 些 比较 器 。 


表 3-2 KeyValue 类 提供 的 比较 器 的 简要 概述 


比较 两 个 Keyvalue 实例 的 字 节 数 组 格式 的 行 键 ， 即 getkey() 方 
eyComparator 


法 的 返回 值 


是 keycomparator 的 封装 ， 基 于 两 个 给 定 的 keyvalue 实例 ， 提 供 
KVComparator D Sy, 
与 Keycomparator 一 样 的 功能 


RowComparator 比较 两 个 keyvalue 实例 的 行 键 (getRow() 的 返回 值 ) 


MetakeyComparator | 比较 两 个 以 字 节 数组 格式 表示 的 .META. 条 目的 行 键 


Kvcomparator 类 的 一 个 特别 版 本 ， 用 于 比较 .META. 目录 表 中 的 


条 目 ， 是 Metakeycomparator 的 封装 
RootKeyComparator | 比较 两 个 以 字 节 数组 格式 表示 的 -RooT- 条 目的 行 键 


RootComparator |KYcomparator 类 的 一 个 特别 版 本 ， 用 于 比较 -RooT- 目录 表 中 的 
FH ; #=RootKeyComparator 的 封装 


KeyValue 类 将 大 部 分 的 比较 器 按照 静态 实例 提供 给 其 他 类 使 
用 。 例 如 ， 有 一 个 公有 变量 KEY_COMPARATOR ， 让 用 户 可 以 访问 


MetaComparator 


KeyComparator 实例 。COMPARATOR 变量 指向 使 用 更 频繁 的 
KVComparator 实例 。 所 以 可 以 不 用 创建 自己 的 实例 ， 而 是 使 用 提供 
的 实例 。 例 如 ， 可 以 按照 以 下 方法 创建 一 个 KeyValue 实例 的 集合 ， 
这 个 集合 可 以 按照 HBase 内 部 使 用 的 顺序 来 排序 : 


TreeSet< KeyValue> set = 


new TreeSet< KeyValue>(KeyValue.COMPARATOR ) 


KeyValue 实例 还 有 一 个 变量 〈 一 个 额外 的 属性 ) ， 代 表 该 实例 
的 唯一 坐标 : 类 型 。 表 3-3 列 出 了 所 有 可 能 的 值 。 


表 3-3 KeyValue 实例 所 有 可 能 的 类 型 值 


keyvalue 实例 代表 一 个 普通 的 ut 操作 
KeyValue 实例 代表 一 个 Delete 操作 ， 也 称 为 墓碑 标记 
司 ， 但 是 会 册 


DeleteFamily 本 Ht BR ES TR , 包括 该 列 族 的 所 有 列 


可 以 通过 使 用 另外 一 个 方法 来 查看 一 个 KeyValue 实例 的 类 型 ， 
例如 : 


String toString() 


该 方法 会 按照 以 下 格式 打印 出 当前 KeyValue 实例 的 元 信息 : 


< row-key>/< family>:< qualifier>/< version>/< type>/< value- 


length> 


这 个 方法 会 用 在 本 书 的 一 些 示 例 代 码 中 ， 用 于 检查 数据 是 否 被 标 
记 或 者 被 恢复 ， 同 时 也 可 以 查看 元 信息 。 


该 类 有 很 多 更 便捷 的 方法 : 允许 对 存储 数据 的 其 中 一 部 分 进行 比 
较 ， 检 查实 例 的 类 型 是 什么 ， 获 得 它 已 经 计算 好 的 推 大小， 克隆 或 者 
复制 该 类 等 。 有 一 些 静 态 方法 可 以 创建 一 些 特殊 的 KeyValue 实例 ， 
用 以 在 HBase 内 更 底层 地 比较 或 者 操作 数据 。 可 以 参考 Java 文 档 来 了 解 
更 多 的 内 容 《。 还 可 以 查看 8.2 节 ， 该 节 详细 地 解释 了 KeyValue 原始 
的 二 进 制 格式 内 容 。 


3. 客户 端的 写 缓冲 区 
每 一 个 put 操作 实际 上 都 是 一 个 RPC © 操作 ， 它 将 客户 端 数据 传 


送 到 服务 器 然后 返回 。 这 只 适合 小 数据 量 的 操作 ， 如 有 果 有 个 应 用 程序 
需要 每 秒 存储 上 千 行 数据 到 HBase 表 中 ， 这 样 的 处 理 就 不 太 合 适 了 。 
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Sa. 
一 一 公 减少 独立 RPC 调 用 的 关键 是 限制 往返 时 间 (round- 
trip time) ， 往 返 时 间 就 是 客户 端 发 送 一 个 请 求 到 服务 器 ， 
然后 服务 器 通过 网 络 进行 响应 的 时 间 。 这 个 时 间 不 包含 数据 
实际 传输 的 时 间 ， 它 其 实 就 是 通过 线路 传送 网 络 包 的 开销 。 
一 般 情 况 下 ， 在 LAN 网 络 中 大 约 要 花 1 毫 秒 的 时 间 ， 这 意味 
着 在 1 秒 钟 的 时 间 内 只 能 完成 1000 次 RPC 往 返 响 应 。 


另 一 个 重要 的 因素 束 是 消 思 大小。 如 有 打通 过 网 络 发 送 的 
请 求 内 容 较 大 ， 那 么 需要 请 求 返回 的 次 数 相 应 较 少 ， 这 是 因 
为 时 间 主 要 花费 在 数据 传递 上 。 不 过 如 采 传 送 的 数据 量 很 
小 ， 比 如 一 个 计数 亏 递 增 操 作 ， 那 么 用 户 把 多 次 修改 的 数据 
批量 提交 给 服务 做 并 减少 请 求 次 数 ， 性 能 会 有 相应 提升 。 


HBase 的 API 配 备 了 一 个 客户 端的 写 缓冲 区 (write buffer) , y 
区 负责 收集 put 操作 ， 然 后 调用 RPC 操 作 一 次 性 将 put 送 往 服务 器 。 


全 局 交换 机 控制 着 该 缓冲 区 是 否 在 使 用 ， 以 下 是 其 方法 : 


void setAutoFlush(boolean autoFlush) 
boolean isAutoFlush() 


默认 情况 下 ， 客 户 端 缓冲 区 是 禁用 的 。 可 以 通过 将 自动 刷 写 
(autoflush) 设置 为 false 来 激活 缓冲 区 ， 调 用 如 下 : 


table.setAutoFlush( false) 


启用 客户 端 绥 冲 机 制 后 ， 用 户 可 以 通过 isAutoFlush() 方法 检 
查 标识 的 状态 。 当 用 户 初始 化 创建 一 个 HTable 实例 时 ， 这 个 方法 将 返 
Fitrue ， 如 果 有 用 户 修改 过 缓冲 机 制 ， 它 会 返回 用 户 当前 所 设 定 的 状 
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那样 ， 将 数据 存储 到 HBase 中 。 此 时 的 操作 不 会 产生 RPC 调 用 ， 因 为 存 
储 的 Put 实例 保存 在 客户 端 进程 的 内 存 中 。 当 需要 强制 把 数据 写 到 服 
务 疹 时 ， 可 以 调用 另外 一 个 API 函 数 : 


void flushCommits() throws IOException 


flushCommits() 方法 将 所 有 的 修改 传送 到 远程 服务 器 。 被 缓冲 
的 Put 实例 可 以 跨 多 行 。 客 户 端 能 够 批量 处 理 这 些 更 新 ， 并 把 它们 传 
送 到 对 应 的 region 服 务 器 。 和 调用 单行 put ( ) 方法 一 样 ， 用 户 不 需要 担 
心 数据 分 配 到 了 哪里 ， 因 为 对 于 用 户 来 说 ，HBase 客 户 端 对 这 个 方法 的 
处 理 是 透明 的 。 图 3-1 展 示 了 在 客户 端 请 求 传送 到 服务 器 之 前 ， 是 怎样 
按 region 服 务 器 排序 分 组 ， 并 通过 每 个 region 服 务 器 的 RPC 请 求 将 数据 
传送 到 服务 器 的 。 


Client 


RegionServer 


>] RegionServer 


RegionServer 


图 3-1 客户 端 put 操作 按 所 属 region 服 务 器 排序 和 分 组 


用 户 可 以 强制 书写 缓冲 区 ， 不 过 这 通常 不 是 必 要 的 ， 因 为 API 会 追 
踩 统计 每 个 用 户 添 加 的 实例 的 堆 大 小 ， 从 而 计算 出 缓冲 的 数据 量 。 除 
了 妃 踪 所 有 的 数据 开销 ， 还 会 追踪 必要 的 内 部 数据 结构 ， 一 旦 超出 缓 
冲 指 定 的 大 小 限制 ， 客 户 端 就 会 隐 式 地 调用 刷 写 命令 。 用 户 可 以 通过 
以 下 调用 来 配置 客户 端 写 缓冲 区 的 大 小 : 


long getWriteBufferSize() 
void setwriteBufferSize(long writeBufferSize) throws IOException 


默认 的 大 小 是 2 MB ( 即 2 097 152 字 节 ) ， 这 个 大 小 比较 适中 ， 一 
般 用 户 插 入 HBase 中 的 数据 都 相当 小 ， 即 每 次 插入 的 数据 都 远 小 于 缓冲 
区 的 大 小 。 如 果 需 要 存储 较 大 的 数据 ， 可 能 就 需要 考虑 增 大 这 个 数 
值 ， 从 而 允许 客户 端 更 高 效 地 将 一 定数 量 的 数据 组 成 一 组 ， 通 过 一 个 
RPC 请 求 来 执行 。 


一 一 给 每 一 个 用 户 创建 的 HTable 实例 都 设 定 缓冲 区 大 
小 十 分 麻烦 ， 为 了 避免 这 个 厅 烦 ， 用 户 可 以 在 hbase-site.xml 
配置 文件 中 添加 一 个 较 大 的 预 设 值 。 例 如 : 


< property> 
< name>hbase.client.write.buffer< /name> 


< value>20971520< /value> 
< /property> 


这 会 将 缓冲 区 大 小 增加 到 20 MB 。 


缓冲 区 仅 在 以 下 两 种 情况 下 会 刷 写 。 
显 式 刷 写 

用 户 调 用 flushcommits( ) 方法 ， 把 数据 发 送 到 服务 器 做 永久 存 
储 。 
隐 式 刷 写 

隐 式 刷 写 会 在 用 户 调用 put( ) BsetwriteBufferSize() 方法 
时 触发 。 这 两 个 方法 都 会 将 目前 占用 的 缓冲 区 大 小 与 用 户 配置 的 大 小 
做 比较 ， 如 果 超 出 限制 则 会 调用 flushcommits( ) 方法 。 如 果 缓 冲 区 


被 禁用 ， 可 以 设置 setAutoFlush(true) ， 这 样 用 户 每 次 调用 
put( ) 方法 时 都 会 触发 刷 写 。 


此 外 调用 HTable 类 的 close( ) 方法 时 也 会 无 条 件 地 隐 式 触发 刷 
T 。 


例 3.3 展 示 了 客户 端 API 如 何 控制 写 缓冲 区 。 
例 3.3 ”使 用 客户 端 写 缓冲 区 


HTable table = new HTable(conf,"testtable"); 
System.out.printin("Auto flush: " + table.isAutoFlush()); © 


table.setAutoFlush(false);@® 


Put puti = new Put(Bytes.toBytes("row1")); 

puti.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("vali")); 

table.put(put1);® 


Put put2 = new Put(Bytes.toBytes("row2")); 

put2.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("val2")); 

table.put(put2); 

Put put3 = new Put(Bytes.toBytes("row3")); 

put3.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("val3")); 

table.put(put3); 


Get get = new Get(Bytes.toBytes("rowi")); 
Result resi = table.get(get); 
System.out.println("Result: " + res1);@ 
table.flushCommits();® 


Result res2 = table.get(get); 
System.out.printin("Result: " + res2);@ 


@@ 俭 查 目 动 刷 写 标 识 位 的 设置 ， 应 该 会 打印 出 “Auto flush: true” ° 
@ 设 置 自动 刷 写 为 false ， 局 用 客户 端 写 缓冲 区 。 
自 将 一 些 行 和 列 数 据 存 入 HBase 。 


@ 试 图 加 载 完 前 存储 的 行 ， 结 果 会 打印 出 “Result: 
keyvalues=NONE” ° 


@ 强 制 刷 写 缓 冲 区 ， 会 导致 产生 一 个 RPC 请 求 。 

@ 现 在 ， 这 一 行 被 持久 化 了 ， 可 以 被 读 取 了 。 

这 个 例子 展示 了 一 个 用 户 之 前 意 想 不 到 的 ， 使 用 缓冲 区 之 后 产生 
的 现象 。 让 我 们 看 看 当 执行 它 时 会 打印 出 什么 : 


Auto flush: true 
Result: keyvalues=NONE 


Result: keyvalues={row1/colfami: qual1/1300267114099/Put/vlen=4} 


虽然 还 没有 介绍 过 get () 操作 ， 但 你 应 该 能 够 正确 地 推断 出 它 是 
用 于 从 服务 占 读 取 数 据 的 。 例 子 中 的 第 一 个 get ( ) 操作 返回 了 一 个 
NONE ， 这 是 什么 意思 呢 ? 这 是 由 于 客户 端的 写 缓冲 区 是 一 个 内 存 结 
构 ， 存 储 了 所 有 未 刷 写 的 记录 ， 这 些 数据 记录 疝 未 发 送 到 服务 礁 ， 
此 用 户 无 法 访问 它 。 


ees 
| 人 
一 一 ”用 户 可 以 使 用 以 下 方法 访问 客户 端 写 缓冲 区 的 内 

容 : ArrayList<Put> getwriteBuffer()。 这 个 方法 
可 以 获取 table .put(put) 添加 到 缓冲 区 中 的 Put 实例 列 


FE o 


前 面 扣 到 过 ， 正 是 由 于 该 列表 ， 使 得 HTable 类 被 多 个 
线程 操作 时 不 安全 。 直 接 操 作 那 个 列表 的 时 候 要 非常 小 心 ， 
因为 这 将 绕 过 堆 大 小 的 检查 ， 同 时 还 有 可 能 过 到 缓冲 区 正在 
刷 写 其 内 容 。 


| 
TS FA NEE MaMa mE 
内 存 里 的 列表 ， 用 户 需 要 注意 不 能 在 运行 时 终止 程序 。 如 果 
发 生 这 种 情况 ， 那 些 尚 未 刷 写 的 数据 束 会 丢失 ! ARS ASIC 
法 收 到 数据 ， 因 此 这 些 数据 没有 任何 副本 可 以 用 来 做 数据 恢 
复 。 


另外 请 注意 ， 一 个 更 大 的 缓冲 区 需要 客户 病 和 服务 句 端 
消耗 更 多 的 内 存 ， 因 为 服务 器 端 也 需要 先 将 数据 写 入 到 服务 
器 的 写 缓冲 区 中 ， 然 后 再 处 理 它 。 男 一 方面 ， 一 个 大 的 缓冲 
区 减少 了 了 RPC 请求 的 次 数 。 估 算 服 务 絮 端 内 存 的 占用 可 使 用 
hbase.client.write.buffer x 
hbase.regionserver.handler .count xregion 服务 


器 的 数量 。 


再 次 提 到 往返 时 间 ， 如 采用 户 只 存储 大 单元 格 ， 客 户 端 
缓冲 区 的 作用 吏 不 大 了 ， 因 为 传输 时 间 占 用 了 天 部 分 的 请 求 
时 间 。 在 这 种 情况 下 ， 建 议 最 好 不 要 增加 客户 端 缓冲 区 大 


小 。 


4. Put 列表 


客户 端的 API 可 以 插入 单个 Put 实例 ， 同 时 也 有 批量 处 理 操作 的 高 
级 符 性 。 其 调用 形式 如 下 : 


void put(List<Put> puts)throws IOException 


用 户 需 要 建立 一 个 Put 实例 的 列表 。 例 3.4 修 改 了 之 前 的 例子 ， 创 
建 了 一 个 列表 保存 所 有 的 修改 ， 最 后 调用 了 以 列表 为 参数 的 put ( ) 方 


法 。 


例 3.4 ”使 用 列表 向 HBase 中 添加 数据 


List< Put> puts = new ArrayList< Put>();® 


Put puti = new Put(Bytes.toBytes("row1")); 

puti.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("vali")); 

puts.add(put1);@ 


Put put2 = new Put(Bytes.toBytes("row2")); 

put2.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("val2")); 

puts.add(put2);® 


Put put3 = new Put(Bytes.toBytes("row2")); 

put3.add(Bytes.toBytes("colfami"), Bytes. toBytes("qual2"), 
Bytes.toBytes("val3")); 

puts.add(put3);® 


table.put(puts);® 


@ 创 建 一 个 列表 用 于 存储 Put 实例 。 

@ 将 一 个 Put 实例 添加 到 列表 中 。 

稀 将 男 外 一 个 Put 实例 添加 到 列表 中 。 

@ 将 第 三 个 Put 实例 添加 到 列表 中 。 
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用 HBase Shell 可 以 快速 查看 存 入 的 数据 是 否 与 预期 一 致 。 请 注 
意 ， 例 3.4 实 际 上 修改 了 三 列 ， 不 过 它们 只 属于 两 行 。 有 两 列 内 容 存 入 


了 键 为 row2 的 行 中 ， 这 两 列 使 用 了 两 个 不 同 的 列 名 ，qual1l 和 
qual2 ， 在 同一 行 创建 了 两 个 不 同名 称 的 列 。 


hbase(main):001:0>scan 'testtable' 


ROW COLUMN+CELL 
row1 
column=colfam1: quali, timestamp=1300108258094, value=val1 


row2 
column=colfam1: quali, timestamp=1300108258094, value=val2 
row2 
column=colfam1:qual2, timestamp=1300108258098, value=val3 
2 row(s)in 0.1590 seconds 


由 于 用 户 提交 的 修改 行 数据 的 列表 可 能 涉及 多 行 ， 所 以 有 可 能 会 
有 部 分 修改 失败 。 造 成 修改 失败 的 原因 有 很 多 ， 例 如 ， 一 个 远程 的 
region 服 务 器 出 现 了 问题 ， 导 致 客户 端的 重 试 次 数 超 过 了 配置 的 最 大 
值 ， 因 此 不 得 不 放弃 当前 操作 。 如 果 远 程 服务 器 的 put 调用 出 现 问 
题 ， 错 误会 通过 随后 的 一 个 IOException 异常 反馈 给 客户 端 。 

例 3.5 使 用 了 一 个 错误 的 (bogus) 列 族 名 来 插入 列 。 由 于 客户 端 
不 知道 远程 表 的 结构 〈 可 能 在 本 次 操作 之 前 ， 实 际 的 表 结 构 已 经 有 所 
变化 ) ， 因 此 对 列 族 的 检查 会 在 服务 器 端 完 成 。 


63.5 ”向 HBase 中 揪 入 一 个 错误 的 列 族 


Put puti = new Put(Bytes.toBytes("row1")); 

puti.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("vali")); 

puts.add(put1); 

Put put2 = new Put(Bytes.toBytes("row2")); 

put2.add(Bytes.toBytes("BOGUS" ) 


,Bytes.toBytes("quali"), 
Bytes.toBytes("val2"));@ 
puts.add(put2); 
Put put3 = new Put(Bytes.toBytes("row2")); 
put3.add(Bytes.toBytes("colfami"), Bytes. toBytes("qual2"), 
Bytes.toBytes("val3")); 
puts.add(put3); 


table.put(puts);@ 


pT 


@ 将 使 用 不 存在 列 族 的 Put 实例 加 入 列表 © 
@ 将 多 行 多 列 数 据 存储 到 HBase 中 。 


那个 插入 错误 列 族 的 put ( ) 调用 失败 ， 会 返回 如 下 的 (或 类 似 
的 ) 错误 信息 : 


org.apache.hadoop.hbase.client.RetriesExhaustedwithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.57:51640, 


用 户 可 能 想 知 道 列表 中 没有 发 生 异 常 的 put 的 情况 如 何 。 再 次 使 
Rt 应 该 可 以 看 见 两 个 正确 的 put 的 数据 已 经 被 添加 到 
HBase# T: 


hbase(main):001:0>scan 'testtable' 


ROW COLUMN+CELL 
row1 


column=colfami: quali, timestamp=1300108925848, value=val1 
row2 

column=colfam1:qual2, timestamp=1300108925848, value=val3 

2 row(s) in 0.0640 seconds 


服务 器 遍历 所 有 的 操作 并 设法 执行 它们 ， 失 败 的 会 返回 ， 然 后 客 
户 端 会 使 用 RetriesExhaustedwithDetailsException 报告 远程 
错误 ， 这 样 用 户 可 以 查询 有 多 少 个 操作 失败 、 出 错 的 原因 以 及 重 试 的 
次 数 。 要 注意 的 是 ， 对 于 错误 列 族 ， 服 务 器 端的 重 试 次 数 会 自动 设 为 1 

( 见 NoSuchcolumnFamilyException: 1 time) ， 因 为 这 是 一 
个 不 可 恢复 的 错误 类 型 。 


这 些 在 服务 右上 失败 的 Put SEP BRE TEAR RR, F 
一 次 缓冲 区 刷 写 的 时 候 会 重 坛 。 用 户 也 可 以 通过 HTable 的 
getwriteBuffer() 方法 访问 它们 ， 并 对 它们 做 一 些 处 理 ， 例 如 ， 清 
除 操作 。 


有 一 些 检 查 是 在 客户 闹 完 成 的 ， 例 如 ， 确 认 Put 实例 的 内 容 是 否 
A Bie ata SU: MLR, A Pino Ra, TRA 
错 的 Put 留 在 客户 问 绥 冲 区 中 不 做 处 理 。 


| 
S 调用 基于 列表 的 put ( ) 时 ， 客 户 端 会 先 把 所 有 的 
Put 实例 插入 到 本 地 写 缓 冲 区 中 ， 然 后 隐 和 式 地 调用 
flushCache() 。 在 插入 每 个 Put 实例 的 时 候 ， 客 户 端 API 
都 会 执行 之 前 提 到 过 的 检查 。 如 果 检 查 失 败 ， 例 如 ，5 个 Put 
中 的 第 3 个 失败 了 ， 则 前 两 个 会 被 添加 到 缓冲 区 中 ， 最 后 两 
个 则 不 会 ， 同 时 也 不 会 触发 刷 写 命令 。 


用 户 可 以 捕获 异 利 并 手动 刷 写 写 缓 神 区 来 执行 已 经 添加 的 操作 。 
例 3.6 展 示 了 如 何 处 理 这 个 异 稼 。 


例 3.6 ”向 HBase 中 插入 一 个 空 的 Put 实例 


Put put1 = new Put(Bytes.toBytes("row1")); 

put1i.add(Bytes.toBytes("colfam1"),Bytes.toBytes("qual1"), 
Bytes.toBytes("val1")); 

puts.add(put1); 

Put put2 = new Put(Bytes.toBytes("row2")); 

put2.add(Bytes.toBytes("BOGUS"), Bytes. toBytes("quali"), 
Bytes.toBytes("val2")); 

puts.add(put2); 

Put put3 = new Put(Bytes.toBytes("row2")); 

put3.add(Bytes.toBytes("colfami"), Bytes. toBytes("qual2"), 
Bytes. toBytes("val3")); 

puts.add(put3); 


Put put4 = new Put(Bytes.toBytes("row2")); 


puts.add(put4); 
© 


try { 


table.put(puts); 
} catch(Exception e){ 


System.err.println("Error: " + e); 


table. flushCommits();@ 


@ 将 没有 内 容 的 Put 添加 到 列表 中 。 
OT KATIA HA Ja GEAR BT 
PAF AST Se, FATTO: 


Error: java.lang.IllegalArgumentException: No columns to insert 
Exception in thread "main" 


org.apache.hadoop.hbase.client.RetriesExhaustedwithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.57:51640, 


第 一 个 错误 (Error) 是 客户 端 检查 发 现 的 ， 第 二 个 错误 是 在 
try/catch 代码 块 中 调用 下 面 的 函数 引起 的 远程 异常 : 


table.flushCommits() 


| 
a 
节 中 “客户 端的 写 缓冲 区 *) 就 会 发 现 没 有 马上 报告 异常 ， 而 
是 延迟 到 了 缓冲 区 刷 写 的 时 候 才 抛 出 。 


=. 


当 使 用 基于 列表 的 put 调用 时 ， 用 户 需 要 特别 注意 : 用 户 无 法 控 
制服 务 咒 端 执行 put 的 顺序 ， 这 意味 着 服务 器 被 调用 的 顺序 也 不 受用 
户 控制 。 如 果 要 保证 写 入 的 顺序 ， 需 要 小 心地 使 用 这 个 操作 ， 最 坏 的 
情况 征 ， 要 减少 每 一 批量 处 理 的 操作 数 ， 并 显示 地 刷 写 客 户 端 写 缓冲 
区 ， 强 制 把 操作 发 送 到 远程 服务 器 。 


5. 原子 性 操作 compare-and-set 


有 一 种 特别 的 put 调用 ， 其 能 保证 自身 操作 的 原子 性 : 检查 写 
(check and put) 。 该 方法 的 签名 如 下 : 


boolean checkAndPut(byte[] row,byte[] family,byte[] qualifier, 
byte[] value,Put put) throws IOException 


ASM TAME RENTS, MRE RUA aninput 操作 的 原 
子 性 。 如 有 果 检 查 成 功 通过 ， 就 执行 put 操作 ， 否 则 就 彻底 放弃 修改 操 
人 
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处 理 等 场景 。 这 些 应 用 场景 的 共同 点 是 ， 在 读 取 数 据 的 同时 需要 处 理 
数据 。 一 旦 你 想 把 一 个 处 理 好 的 结果 写 回 HBase， 并 保证 没有 其 他 客户 
问 已 经 做 了 同样 的 事情 ， 你 吏 可 以 使 用 这 个 有 原子 性 保证 的 操作 ， 移 
比较 原 值 ， 再 做 修改 。 


Ev 

有 一 种 特别 的 检查 通过 checkAndPut( ) 调用 来 完 
成 ， 即 只 有 在 另外 一 个 值 不 存在 的 情况 下 ， 才 执行 这 个 修 
改 。 要 执行 这 种 操作 只 需要 将 参数 value 设置 为 nulL1 即 
可 ， 只 要 指定 列 不 存在 ， 就 可 以 成 功 执 行 修改 操作 。 


个 方法 返回 一 个 布尔 类型 的 值 ， 表示 put 操作 成 功 执行 还 是 失 
WW, a 别 是 true 和 false。 例 3.7 展 示 了 客户 端 与 服务 器 端 
不 同 操作 返回 值 的 交互 过 程 。 


例 3.7 使 用 原子 性 操作 compare-and-set 


Put puti = new Put(Bytes.toBytes("row1")); 
puti.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes. toBytes("vali"));@ 


boolean resi = table.checkAndPut (Bytes. toBytes("row1"), 
Bytes. toBytes("colfami"),Bytes.toBytes("quali"),null, put1);@ 
System.out.println("Put applied: " + res1);® 


boolean res2 = table.checkAndPut (Bytes. toBytes("row1"), 
Bytes. toBytes("colfami"),Bytes.toBytes("quali"),null, put1);@ 
System.out.println("Put applied: " + res2);® 


Put put2 = new Put(Bytes.toBytes("rowi")); 
put2.add(Bytes.toBytes("colfami"), Bytes. toBytes("qual2"), 
Bytes.toBytes("val2"));@® 


boolean res3 = table.checkAndPut (Bytes. toBytes("row1"), 

Bytes. toBytes("colfami"),Bytes.toBytes("quali"),@ 
Bytes.toBytes("vali"),put2); 

System.out.println("Put applied: " + res3);® 


Put put3 = new Put(Bytes.toBytes("row2")); 
put3.add(Bytes.toBytes("colfami"), Bytes. toBytes("quali"), 
Bytes.toBytes("val3"));® 


boolean res4 = table.checkAndPut (Bytes. toBytes("row1"), 

Bytes. toBytes("colfami"),Bytes.toBytes("quali"),@ 
Bytes.toBytes("vali"),put3); 

System.out .println("Put applied: " + res4);@ 


四 创建 一 个 新 的 Put 实例 。 


@ 检 查 指定 列 是 否 存在 ， 按 检查 的 结果 决定 是 否 执行 put 操 作 。 
人 @ 输 出 结果 ， 此 处 应 为 : “Put applied: true”。 

人 @ 再 次 向 同一 个 单元 格 写 入 数据 。 

人 @ 因 为 那个 列 的 值 已 经 存在 ， 此 时 的 输出 结果 应 为 “Put applied: 


false” ° 
@ 创 建 男 一 个 新 的 Put 实例 ， 这 次 使 用 一 个 不 同 的 列 限 定 符 。 
@ 当 上 一 次 的 put 值 存 在 时 ， 写 入 新 的 值 。 
@ 因 为 已 经 存在 ， 所 以 输出 的 结果 应 当 为 “Put applied: true”。 
@ 再 创建 一 个 Put 实例 ， 这 回 使 用 一 个 不 同 的 行 键 。 
@ 检 查 一 个 不 同行 的 值 是 否 相等 ， 然 后 写 入 为 一 行 。 
全 程 序 执行 不 到 这 里 ， 因 为 在 @ 处 会 抛 出 异常 。 
例子 中 最 后 一 次 调用 会 抛 出 以 下 异 毅 : 


Exception in thread "main" 
org.apache.hadoop.hbase.DoNotRetryIOException: 


Action's getRow must match the passed row 


L HBase 提 供 的 compare-and-set 操 作 ， 只 能 检查 和 修 
改 同 一 行 数据 。 与 其 他 的 许多 操作 一 样 ， 这 个 操作 只 提供 同 
一 行 数据 的 原子 性 保证 。 检 查 和 修改 分 别针 对 不 同行 数据 时 
会 扫 出 异常 。 


compare-and-set (CAS) 操作 十 分 强大 ， 尤 其 是 在 分 布 式 系统 中 ， 
且 有 多 个 独立 的 客户 端 同时 操作 数据 时 。 通 过 这 个 方法 ，HBase 与 其 他 
i 提供 了 使 不 同 客户 端 可 以 并 发 修改 数据 
功能。 


3.2.2 get 方法 

下 面 我 们 将 介绍 从 客户 端 API 中 获取 已 存储 数据 的 方法 。HTable 
类 中 提供 了 get ( ) 方法 ， 同 时 还 有 与 之 对 应 的 Get 类 。get 方 法 分 为 两 
类 : 一 类 是 一 次 获取 一 行 数 据 ; 另 一 类 是 一 次 获取 多 行 数据 。 
1. 单行 get 


这 种 方法 可 以 从 HBase 表 中 取 一 个 特定 的 值 : 


Result get(Get get) throws IOException 


与 put () 方法 有 对 应 的 Put 类 相似 ，get( ) 方法 也 有 对 应 的 Get 
类 ， 此 外 还 有 一 个 相似 之 处 ， 那 融 是 在 使 用 下 面 的 方法 构造 Get 实例 
时 ， 也 需要 设置 行 键 : 


Get(byte[] row) 
Get(byte[] row, RowLock rowLock) 


Fa, 
BA 
a 她、 + 
wW a 


(BOR — eget ( ) 操作 只 能 取 一 行 数据 ， 但 不 会 限 
制 一 行当 中 取 多 少 列 或 者 多 少 单元 格 。 


这 两 个 Get 实例 都 通过 row 参数 指定 了 要 获取 的 行 ， 其 中 第 二 个 
Get 实例 还 增加 了 一 个 可 选 的 rowLock 参数 ， 人 允许 用 户 设置 行 锁 。 与 
put 操作 一 样 ， 用 户 有 许多 方法 可 用 ， 可 以 通过 多 种 标准 沪 选 目标 数 
据 ， 也 可 以 指定 精确 的 坐标 获取 某 个 单元 格 的 数据 : 


Get addFamily(byte[] family) 
Get addColumn(byte[] family, byte[] qualifier) 


Get setTimeRange(long minStamp,long maxStamp) throws IOException 
Get setTimeStamp(long timestamp) 

Get setMaxVersions() 

Get setMaxVersions(int maxVersions) throws IOException 


addFamily() 方法 限制 get 请 求 只 能 取得 一 个 指定 的 列 族 ， 要 取 
得 多 个 列 族 时 需要 多 次 调用 。addcolumn( ) 的 使 用 方式 与 之 类 似 ， 用 
户 通过 它 可 以 指定 get 取 得 哪 一 列 的 数据 ， 从 而 进一步 缩小 地 址 空间 。 
有 一 些 方法 允许 用 户 设 定 要 获取 的 数据 的 时 间 蕉 ， 或 通过 设 定 一 个 时 
间 段 来 取得 时 间 戳 属于 该 时 间 段 内 的 数据 。 


最 后 ， 如 果 用 户 没 有 设 定时 间 惟 的 话 ， 也 有 方法 允许 用 户 设 定 要 
获取 的 数据 的 版 本 数目 。 默 认 情 况 下 ， 版 本 数 为 1， 即 get( ) 请 求 返回 
最 新 的 匹配 版 本 。 如 果 有 疑问 ， 可 以 使 用 getMaxVersions( ) 来 检查 
这 个 Get 实例 所 要 取出 的 最 大 版 本 数 。 不 带 参 数 的 
setMaxVersions() 方法 会 把 要 取出 的 最 大 版 本 数 设 为 
Integer .MAX_VALUE ， 这 是 用 户 在 列 族 描述 符 ”(column family 
descriptor) 中 可 配置 的 最 大 版 本 数 ， 此 时 系统 会 返回 这 个 单元 格 中 所 
有 的 版 本 ， 换 句 话 说， 此 时 系统 会 返回 用 户 在 列 族 中 已 配置 的 最 大 版 
本 数 以 内 的 所 有 数据 。 


表 3-4 列 出 了 Get 类 中 其 他 方法 的 介绍 。 
表 3-4 Get 类 提供 的 其 他 方法 概览 


建 6et 实例 时 指定 的 行 键 


j 4 前 Get 实例 的 RowLock 实例 
J 建 时 指定 rowLock 的 锁 ID ， 如 果 没 有 指 


回 -1L 


回 指定 的 Get 实例 的 时 间 惟 范围。 注意 ，6et 

类 中 已 经 没有 getTimestamp() 方法 了 ， 因 大 
getTimeRange() API 会 在 内 部 将 setTimestamp( ) 赋 的 值 转换 成 
TimeRange 实例 ， 设 定 给 定时 间 戳 的 最 大 值 和 
最 小 值 


可 以 使 用 一 个 特定 的 过 滤器 实例 ， 通 过 多 
种 规则 和 条 件 来 筛选 列 和 单元 格 。 使 用 这 些 方 
法 ， 用 户 可 以 设 定 或 查看 cet 实例 的 过 滤器 成 
员 ， 详 情 参 见 4.1 广 


每 个 HBase 的 region 服 务 器 都 有 一 个 块 缓存 来 
有 效 地 保存 最 近 存 取 过 的 数据 ， 并 以 此 来 加 速 
之 后 的 相 邻 信息 的 读 了 到 。 不 过 在 某 些 情况 下 ， 
例如 完全 随机 读 取 时 ， 最 好 能 避免 这 种 机 制 带 
来 的 扰动 。 这 些 方法 能 够 控制 当 次 读 取 的 块 缓 
存 机 制 是 否 启 效 


快捷 地 获取 列 族 FamilyMap 大 小 的 方法 ， 包 括 
numFamilies() E ) 方法 和 addcolumn() 方法 添加 的 
列 族 


hasFamilies() 检查 列 族 或 列 是 在 于 当前 的 6et 实例 中 


这 些 方法 能 够 让 用 户 直接 访问 addFamily() 和 
addcolumn() 添加 的 列 族 和 列 。FamilyMap 列 族 
SR 中 键 是 列 族 的 名 称 ， 链 对 应 的 值 是 指定 你 族 的 
actus a 限定 符 列表 。familyset() 方法 返回 一 个 所 有 
已 存储 列 族 的 set ， 即 一 个 只 包含 列 族 名 的 集 


=| 


Ei 
Ei 


getLockId() 


setFilter()/getFilter() 


setCacheBlocks()/getCacheBlocks() 
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中 用 户 预 先 设 定好 的 筛选 条 件 。 它 们 的 应 用 场景 很 少 ， 而 且 


只 能 在 类 似 如 下 的 场景 中 使 用 ， 例 如 ， 用 户 的 一 个 私有 方法 
中 有 一 个 Get 实例 ， 需 要 在 其 他 地 方 检查 Get 实例 中 各 筛选 
条 件 是 否 正确 。 


以 前 提 到 过 ，HBase 为 用 户 提 供 了 Bytes 这 个 工具 类 ， 该 类 有 许 
多 可 以 把 Java 的 常用 数据 类 型 转化 为 byte[] 数组 的 静态 方法 。 同 时 ， 
它 也 可 以 做 一 些 反 辣 转 化 的 工作 : 例如 当 用 户 从 HBase 中 取得 一 行 数据 
时 ， 可 使 用 Bytes 对 应 的 方法 把 bytef[] 的 内 容 转 化 为 Java 的 数据 类 
型 。 下 面 是 它 提供 的 相关 方法 的 列表 : 


String toString(byte[] b) 
boolean toBoolean(byte[] b) 
long toLong(byte[] bytes) 


float toFloat(byte[] bytes) 
int toInt(byte[] bytes) 


例 3.8 展 示 了 从 HBase 中 获取 数据 的 完整 过 程 。 
例 3.8 ”从 HBase 中 获取 数据 的 应 用 


Configuration conf = HBaseConfiguration.create();@ 

HTable table = new HTable(conf,"testtable");@ 

Get get = new Get(Bytes.toBytes("rowi"));® 

get .addColumn(Bytes.toBytes("colfami"),Bytes.toBytes("quali"));® 


Result result = table.get(get);® 

byte[] val = result.getValue(Bytes.toBytes("colfami"), 
Bytes.toBytes("quali"));@ 

System.out.printin( "Value: " + Bytes.toString(val));@ 


@ 创 建 配置 实例 。 
@@ 初 始 化 一 个 新 的 表 引 用 。 
日 使 用 一 个 指定 的 行 键 构建 一 个 Get 实例 。 


@ 癌 Get 实例 中 添加 一 个 列 。 

@ 从 HBase 中 获取 指定 列 的 行 数据 。 
@ 从 返回 的 结果 中 获取 对 应 列 的 数据 。 
@ 将 数据 转化 为 字符 串 打 印 输出 。 


如 采用 户 在 执行 这 个 例子 之 前 执行 过 前 面 的 例子 ， 如 例 3.2， 那 么 
会 有 如 下 的 输出 结 采 : 


Value: vali 


虽然 上 面 的 这 个 输出 结果 很 普通 ， 但 却 展示 了 一 次 完整 的 读 取 数 
据 的 过 程 。 这 个 例子 只 深 加 并 取 回 了 一 个 特定 的 列 ， 取 回 的 版 本 数 为 
PAVE ° get() 方法 调用 后 返回 一 个 Result 类 的 实例 ， 这 个 类 将 在 
下 面 介 绍 。 


2. Result 类 


当 用 户 使 用 get ( ) 方法 获取 数据 时 ，HBase 返 回 的 结果 包含 所 有 
匹配 的 单元 格 数据 ， 这 些 数 据 将 被 封 逆 在 一 个 Result 实例 中 返回 给 用 
户 。 用 它 提 供 的 方法 ， 可 以 从 服务 需 问 获取 匹配 指定 行 的 特定 返回 
值 ， 这 些 值 包括 列 族 、 列 限定 竺 和 时 间 稚 等 。 


以 下 是 一 些 获 取 特 定 返回 值 的 工具 方法 ， 和 前 面 使 用 的 例 3.8 一 
样 ， 可 以 设 定 一 些 具体 的 查询 维度 。 如 果 用 户 之 前 要 求 服务 器 端 返回 
一 个 列 族 下 的 所 有 列 ， 现 在 避 ® 可 以 从 返回 值 中 取得 这 个 列 族 下 所 需 的 
任意 列 。 换 句 话 说 ， 用 户 使 用 get( ) 方法 时 需要 提供 一 些 具 体 的 信 
思 ， 以 便 数 据 取 回 之 后 客户 端 可 以 六 选 出 对 应 的 数据 。Result 类 提供 
的 方法 如 下 : 


byte[] getValue(byte[] family, byte[] qualifier) 
byte[] value() 

byte[] getRow( ) 

int size() 

boolean isEmpty() 


KeyValue[] raw() 
List<KeyValue> list() 


getValue() 方法 允许 用 户 取得 一 个 HBase 中 存储 的 特定 单元 格 
的 值 。 因 为 该 方法 不 能 指定 时 间 戳 或 者 说 版 本 ) ， 所 以 用 户 只 能 获 
得 数据 最 新 的 版 本 。value( ) 方法 的 使 用 更 简单 ， 它 会 返回 第 一 个 列 
对 应 的 最 新 单元 格 的 值 。 因 为 列 在 服务 器 端 是 按 字 典 序 存储 的 ， 所 以 
会 返回 名 称 (包括 列 族 和 列 限定 符 ， 排 在 首位 的 那 一 列 的 值 。 


之 前 我 们 介绍 过 getRow( ) 方法 ， 它 返回 创建 6et 类 当前 实例 时 
使 用 的 行 键 。size( ) 方法 返回 服务 器 端 返回 值 中 键 值 对 (KeyValue 
实例 ) 的 数目 。 用 户 可 以 使 用 size( ) 方法 或 者 isEmpty( ) 方法 查看 
刍 值 对 的 数目 是 否 大 于 0， 这 样 可 以 检查 服务 器 端 是 否 找到 了 与 查询 相 
对 应 的 结果 。 

raw( ) 方法 返回 原始 的 底层 KeyValue 的 数据 结构 ， 具 体 来 说 ， 
是 基于 当前 的 Result 实例 返回 KeyValue 实例 的 数组 。1ist( ) 调用 
则 把 raw( ) 中 返回 的 数组 转化 为 一 个 List 实例 ， 并 返回 给 用 户 ， 创 
建 的 List 实例 由 原始 返回 结果 中 的 KeyValue 数组 成 员 组 成 ， 用 户 可 
以 方便 地 选 代 存 取 数据 。 
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一 raw() 方法 返回 的 数组 已 经 按 字典 序 排列 ， 排 列 
时 考虑 了 KeyValue 实例 的 所 有 坐标 。 先 按 列 族 排序 ， 列 族 
内 再 按 列 限定 符 排 序 ， 此 后 再 按时 间 崔 排序 ， 最 后 按 类 型 排 
E o 


RINDA — H AERA T : 


List<KeyValue> getColumn(byte[] family, byte[] qualifier) 


KeyValue getColumnLatest(byte[] family, byte[] qualifier) 
boolean containsColumn(byte[] family, byte[] qualifier) 


这 个 方法 返回 一 个 特定 列 的 多 个 值 ， 解 答 了 前 文 提出 的 一 个 问 
题 ， 如 何 获得 一 个 列 的 多 个 版 本 。 返 回 值 中 的 版 本 数 取 决 于 用 户 调用 
get( ) 方法 之 前 ， 创 建 Get 实例 时 设置 的 最 大 版 本 数 ， 默 认 是 1。 换 名 
话说 ，getColumn( ) 返回 的 列表 中 包括 0 ( 当 本 行 没 有 该 列 值 时 ) 或 1 
个 条 目 ， 这 一 条 目 是 该 列 最 新 版 本 的 值 。 如 果 用 户 指定 了 一 个 比 默认 
值 1 大 的 版 本 数 (可 以 是 最 大 值 范 围 内 的 任意 值 ) ， 返 回 的 列表 中 就 可 
能 会 有 多 个 条 目 。 

getColumnLatest() 方法 返回 对 应 列 的 最 新 版 本 值 ， 不 过 与 
getValue() 不 同 ， 它 不 返回 值 的 原始 字 节 数组 ， 而 是 返回 一 个 
KeyValue 实例 。 如 果 用 户 需 要 的 不 仅仅 是 数据 ， 那 么 这 个 方法 将 会 
非常 有 用 。containscolLlumn( ) 是 一 个 十 分 简便 的 方法 ， 它 检查 返回 
值 中 是 否 有 对 应 的 列 。 


Dg 
一 一 这 些 方法 也 可 以 不 指定 列 限定 符 ， 即 将 列 限定 符 设 
置 为 nu11 ， 这 样 方法 会 匹配 没有 列 限 定 符 的 特殊 列 。 


不 使 用 限定 符 束 意味 着 这 一 列 没有 标签 。 当 查询 表 时 ， 
例如 ， 用 户 通过 命令 行 查询 时 ， 需 要 目 己 明日 数据 所 表示 的 
具体 含义 。 可 能 只 有 一 种 情况 能 用 到 空 限定 符 ， 即 一 个 列 族 
下 只 有 一 列 ， 同 时 列 族 名 束 能 够 表示 数据 的 含义 及 目的 。 


Pl eR RAUL, DRCOG: 


NavigableMap< byte[],NavigableMap< byte[], 
NavigableMap< Long, byte[]>>> getMap( ) 


NavigableMap< byte[], 
NavigableMap< byte[],byte[]>> getNoVersionMap( ) 
NavigableMap< byte[],byte[]> getFamilyMap(byte[] family) 


最 常用 的 方法 是 getMap( ) ， 它 把 所 有 get( ) 请 求 返回 的 内 容 都 
装 入 一 个 Java 的 Map 类 实例 中 ， 这 样 用 户 可 以 使 用 该 方法 亿 历 所 有 结 
果 。getNoversionMap() SgetMap() 形式 上 相似 ， 不 过 它 只 返回 
每 个 列 的 最 新 版 本 。getFamilyMap( ) 允许 用 户 指定 一 个 特定 的 列 
族 ， 返 回 这 次 结果 中 这 个 列 族 下 的 所 有 版 本 。 

不 论 用 户 使 用 什么 方法 获取 Result 中 的 数据 ， 都 不 会 产生 额外 的 
e 因为 这 些 数据 都 已 经 通过 网 络 从 服务 器 端 传输 到 了 
客户 端 。 


转 储 内 容 


所 有 的 Java 对 象 都 有 toString( ) 方法 ， 这 个 方法 通 
常会 被 重 载 ， 用 于 将 实例 数据 转化 为 文本 表示 。 这 样 做 一 
般 不 是 为 了 序列 化 对 象 ， 而 是 为 了 方便 调试 程序 。 


同样 Result 类 也 有 toString() 方法 的 实现 ， 它 把 
实例 的 内 容 转 储 为 一 个 可 读 的 字符 串 ， 下 面 是 输出 的 例 
F: 


keyvalues={row-2/colfam1:col-5/1300802024293/Put/vlen=7, 


row-2/colfam2:col-33/1300802024325/Put/vlen=8} 


这 个 方法 只 是 简单 地 打印 实例 所 包含 的 KeyValue 实 
例 ， 也 就 是 逐个 调用 KeyValue ，toString() 方法 。 如 
果 Result 的 实例 为 空 ， 则 返回 结果 如 下 : 


keyvalues=NONE 


这 种 情况 表示 查询 没有 KeyValue 实例 返回 。 本 书 的 
代码 示例 使 用 toSstring( ) 方法 来 打印 之 前 读 取 操作 的 结 
I 


3. Get 列表 

使 用 列表 参数 的 get ( ) 方法 与 使 用 列表 参数 的 put () 方法 对 应 ， 
用 户 可 以 用 一 次 请 求 获取 多 行 数据 。 它 允许 用 户 快速 高 效 地 从 远程 服 
务 器 获取 相关 的 或 完全 随机 的 多 行 数据 。 


a 
«et $ 
一 一 如 图 3-1 所 示 ， 实 际 上 ， 请 求 有 可 能 被 发 往 多 个 不 
同 的 服务 器 ， 但 这 部 分 逻辑 已 经 被 封装 起 来 ， 因 此 对 于 客户 
端 代码 来 说 ， 还 是 表现 为 一 次 请 求 。 


API 提 供 的 方法 签名 如 下 : 


Result[] get(List< Get> gets) throws IOException 


这 个 方法 的 售 义 十 分 直 日 ， 跟 之 前 介绍 的 类 似 方法 一 样 :， 用 户 需 
要 创建 一 个 列表 ， 并 把 之 前 准备 好 的 Get 实例 添加 到 其 中 。 然 后 将 这 
个 列表 传 给 get ( ) ， 会 返回 一 个 与 列表 大 小 相等 的 Result 数组 。 例 
3.9 展 示 了 用 两 种 方法 获取 数据 的 整个 流程 。 


例 3.9 ”使 用 Get 实例 的 列表 从 HBase 中 获取 数据 


byte[] cf1 = Bytes.toBytes("colfam1"); 
byte[] qf1 = Bytes.toBytes("quali"); 
byte[] qf2 = Bytes.toBytes("qual2");@ 


byte[] row1 
byte[] row2 


Bytes.toBytes("row1"); 
Bytes.toBytes("row2"); 


List< Get> gets = new ArrayList< Get>();@ 


Get get1 = new Get(row1); 
get1.addColumn(cf1,qf1); 
gets.add(get1); 


Get get2 = new Get(row2); 
get2.addColumn(cf1,qf1);® 
gets.add(get2); 


Get get3 = new Get(row2); 
get3.addColumn(cf1,qf2); 
gets.add(get3); 


Result[] results = table.get(gets);® 


System.out.printin("First iteration..."); 
for(Result result : results){ 
String row = Bytes.toString(result.getRow()); 
System.out.print("Row: " + row + " "); 
byte[] val = null; 
if(result.containsColumn(cf1,qf1)){ © 
val = result.getValue(cf1,qf1); 
System.out.println("Value: " + Bytes.toString(val)); 


} 
if(result.containsColumn(cf1, qf2) ){ 


} 
} 


val = result.getValue(cf1,qf2); 
System.out.printlin("Value: " + Bytes.toString(val)); 


System.out.println( "Second iteration..."); 
for(Result result : results){ 
for(KeyValue kv : result.raw()){ 


} 
} 


System.out.println("Row: " + Bytes.toString(kv.getRow())+ © 
" Value: " + Bytes.toString(kv.getValue())); 


@ 准 备 好 共用 的 子 市 数组 。 

@ 准 备 好 要 存放 Get 实例 的 列表 。 

Ocet 实例 添加 a 到 列表 中 。 

@ 从 HBase 中 获取 这 些 行 和 选 定 的 列 。 
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@ 再 次 通 历 ， 打 印 所 有 结 采 。 

如 琳 先 运行 例 3.4， 然 后 再 运行 例 3.9， 可 能 会 看 到 如 下 结 来 : 


First iteration... 


Row: 


row1 Value: vali 


: row2 Value: val2 
: row2 Value: val3 


: rowl Value: vali 
: row2 Value: val2 
: row2 Value: val3 


可 以 


STA 


PRR RE TEASE, ita MARS at SIZE Z Ja, FR 
有 多 种 方式 访问 结果 。 现 在 就 差 查 询 时 出 现 的 异常 如 何 反 馈 没 有 
了 。get() 返回 异常 的 方法 与 3.2.1 节 中 的 “Put 列 表 ” 不 同 。get() 


方法 要 么 返回 与 给 定 列表 大 小 一 致 的 Result 数组 ， 要 么 抛 出 一 个 异 
常 。 例 3.10 展 示 了 这 个 行为 。 


例 3.10 ”尝试 读 取 一 个 错误 的 列 族 


List< Get> gets = new ArrayList< Get>(); 


Get get1 = new Get(row1); 
get1.addColumn(cf1,qf1); 
gets.add(get1); 


Get get2 = new Get(row2); 
get2.addColumn(cf1,qf1);@ 
gets.add(get2); 


Get get3 = new Get(row2); 
get3.addColumn(cf1, qf2 ) ; 
gets.add(get3); 


Get get4 = new Get(row2); 
get4.addColumn(Bytes.toBytes ("BOGUS") 


,qf2); 
gets.add(get4);@ 


Result[] results = table.get(gets);® 
System.out.printlin("Result count: " + results.length);® 


@ 将 Get 实例 添加 到 列表 中 。 

@@ 添 加 包含 有 错 的 (bogus) 列 族 的 Get 。 
日 抛 出 异常 ， 操 作 停止 。 

@ 不 会 执行 到 此 行 。 


执行 这 个 例子 会 导致 整个 get ( ) 操作 终止 ， 程 序 会 抛 出 类 似 下 面 
Nee, HAA RE: 


org.apache.hadoop.hbase.client.RetriesExhaustedwithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.57:51640, 


对 于 批量 操作 中 的 局 部 错误 ， 有 一 种 更 为 精细 的 处 理 方 法 ， 即 使 
用 batch( ) 方法 ， 这 部 分 内 容 将 在 3.3 节 详细 介绍 。 


4. 获取 数据 的 相关 方法 


还 有 一 些 方法 可 以 用 来 获取 或 检查 存储 的 数据 ， 第 一 个 是 : 


boolean exists(Get get)throws IOException 


可 以 和 使 用 HTable 的 get ( ) 方法 一 样 ， 先 创建 一 个 Get 类 的 实 
file exists() 方法 通过 RPC 验 证 请 求 的 数据 是 否 存在 ， 但 不 会 从 远 
程 服 务 右 返回 请 求 的 数据 ， 只 返回 一 个 布尔 值 表 示 这 个 结 来 。 


心 4 

一 人 exists() 方法 会 引发 region 服 务 器 端 查询 数据 的 
操作 ， 包 括 加 载 文件 块 来 检查 某 行 或 某 列 是 否 存在 。 用 户 通 
过 这 种 方法 只 能 避免 网 络 数据 传输 的 开销 ， 不 过 在 需要 检查 
或 频繁 检查 一 个 比较 大 的 列 时 ， 这 种 方法 还 是 十 分 实用 的 。 


某 些 情况 下 ， 用 户 在 检索 数据 时 可 能 需要 查找 一 个 特定 的 行 ， 或 
者 某 个 请 求 行 之 前 的 一 行 。 下 面 的 方法 可 以 帮助 用 户 实现 这 种 查找 : 


Result getRowOrBefore(byte[] row,byte[] family) throws IOException 


用 户 需 要 指定 要 查找 的 行 键 和 列 族 。 指 定 后 者 的 原因 是 ，HBase 是 
一 个 列 式 存储 的 数据 库 ， 不 存在 没有 列 的 行 数据 。 设 定 列 族 之 后 ， 服 
务 郁 只 会 检查 要 得 找 的 那 一 行 里 是 否 有 任何 属于 指定 列 族 的 列 值 。 


请 注意 ， 在 使 用 getRowOrBefore( ) WIEN, % 
要 指定 一 个 已 经 存在 的 列 族 ， 否 则 服务 端 会 因为 要 访问 一 个 
不 存在 的 存储 文件 而 抛 出 一 个 Java 的 


NullPointerException 异常 。 


可 以 从 getRowOrBefore() 返回 的 Result 实例 中 得 到 要 查找 的 
行 键 。 这 个 行 键 要 么 与 用 户 设 定 的 行 一 致 ， 要 么 刚好 是 设 定 行 键 之 前 
的 一 行 。 如 果 没 有 匹配 的 结果 ， 本 方法 返回 nuL1L。 例 3.11 使 用 
getRowOrBefore() 方法 查找 用 户 之 前 使 用 put 示例 存 入 的 数据 。 


例 3.11 使 用 特殊 检索 方法 


Result result1 = table.getRowOrBefore(Bytes.toBytes("rowi1"),® 
Bytes.toBytes("colfam1")); 


System.out.println("Found: " + Bytes.toString(result1.getRow()));@ 


Result result2 = table.getRowOrBefore(Bytes.toBytes("row99"),® 
Bytes.toBytes("colfam1")); 


System.out.println("Found: " + Bytes.toString(result2.getRow()));® 


for(KeyValue kv : result2.raw()){ 
System.out.printin(" Col: " + Bytes.toString(kv.getFamily())+® 
"/" + Bytes.toString(kv.getQualifier())+ 
",Value: " + Bytes.toString(kv.getValue())); 
} 


Result result3 = table.getRowOrBefore(Bytes.toBytes("abc"),@ 
Bytes.toBytes("colfami") ); 
System.out.printin("Found: " + result3);@ 


@ 党 试 查 找 已 经 存在 的 行 。 

@ 打 印 查 找 结果 。 

OF INARA TENT ° 

@ 返 回 已 排 好 序 的 表 中 的 最 后 一 条 结果 。 

@ 打 印 返 回 结果 。 

@ 矢 试 得 找 测试 行 之 前 的 一 行 。 

@@ 由 于 没有 匹配 的 结果 ， 返 回 nul1。 

假如 已 经 执行 过 例 3.4， 那 上 面 的 代码 将 会 输出 如 下 结 


Found: row1 
Found: row2 
Col: colfami1/quali, Value: val2 


Col: colfam1/qual2,Value: val3 
Found: null 


第 一 次 调用 找到 一 个 匹配 的 行 ， 成 功 返 回 。 第 二 次 调用 使 用 了 一 
个 大 数字 作为 后 级 来 查找 表 的 最 后 一 行 。 从 row- 前 级 开始 ， 查 找到 对 
应 的 row-2 行 。 最 后 一 个 例子 要 查找 abc 这 一 行 或 这 行 之 前 的 一 行 ， 
不 过 之 前 搬入 数据 的 前 缀 都 是 row- ， 所 以 abc 以 及 之 前 的 行 不 存在 。 
因此 返回 值 为 nuL1 ， 表 示 查 找 失 败 。 


令 人 感 兴趣 的 是 ， 这 个 循环 打印 出 了 与 匹配 条 件 的 行 一 起 返回 的 
数据 。 返 回 了 指定 列 族 的 所 有 列 ， 包 招 这 些 列 的 最 新 版 本 。 用 户 可 以 
使 用 这 种 方法 快速 取 回 特定 排序 规则 下 一 个 列 族 中 所 有 列 的 最 新 值 。 
例如 ， 假 设 像 Put 示例 一 样 ， 所 有 的 行 键 都 使 用 row- 作为 前 级 ， 调 用 
getRowOrBefore( ) 时 送 入 row-999999999 作为 row 参数 ， 返 回 
的 结果 将 总 是 按 字典 序 排 在 表 尾 的 那 一 行 。 


3.2.3 ”删除 方法 


LBS ZA T HBase Ze A) HE > LALA, FAA SERA 
据 没 讲 了 。HTable 提供 了 删除 的 方法 ， 同 时 与 之 前 的 方法 一 样 有 一 个 
相应 的 类 命名 为 Delete 。 
1. 单行 删除 


delete() 方法 有 许多 变 体 ， 其 中 一 个 只 需要 一 个 Delete 实 


例 : 


void delete(Delete delete) throws IOException 


与 前 面 讲 过 的 get( ) 方法 和 put ( ) 方法 一 样 ， 用 户 必 须 先 创建 一 
个 Delete 实例 ， 然 后 再 添加 你 想 要 删除 的 数据 的 详细 信息 。 Pier EN 


Ši 
JE: 


Delete(byte[] row) 


Delete(byte[] row, long timestamp, RowLock rowLock) 


用 户 需 要 提供 要 修改 的 行 ， 如 果 要 多 次 频繁 地 修改 同一 行 的 话 ， 
还 可 以 提供 rowLock 参数 (RowLock 类 的 一 个 实例 ) ， 以 指定 自己 
的 RowLock 。 此 外 ， 最 好 缩小 要 删除 的 给 定 行 中 涉及 数据 的 范围 ， 可 
使 用 下 列 方法 : 


deleteFamily(byte[] family) 

deleteFamily(byte[] family,long timestamp) 
deleteColumns(byte[] family, byte[] qualifier) 
deleteColumns(byte[] family, byte[] qualifier,long timestamp) 


deleteColumn(byte[] family, byte[] qualifier) 
deleteColumn(byte[] family, byte[] qualifier,long timestamp) 
void setTimestamp(long timestamp) 


有 4 种 调用 可 缩小 删除 所 涉及 的 数据 范围 。 百 完 ， 用 户 可 以 使 用 
deleteFamily() 方法 来 删除 一 整个 列 族 ， 包 括 其 下 所 有 的 列 。 用 户 
也 可 以 指定 一 个 时 间 崔 ， 触 发 针对 单元 格 数据 版 本 的 过 滤 ， 从 所 有 的 
列 中 删除 与 这 个 时 间 戳 相 匹配 的 版 本 和 比 这 个 时 间 戳 上 昌 的 版 本 。 


另 一 种 方法 是 deletecolLlumns() ， 它 作用 于 特定 的 一 列 ， 如 果 
用 户 没 有 指定 时 间 惟 ， 这 个 方法 会 删除 该 列 的 所 有 版 本 ， 如 果 用 户 指 
这 个 方法 会 删除 所 有 与 这 个 时 间 戳 相 匹配 的 版 本 和 更 旧 


第 三 种 方法 与 第 二 种 类 似 ， 使 用 deletecolumn() ， 它 也 操作 一 
个 具体 的 列 ， 但 是 只 删除 最 新 的 版 本 或 者 指定 的 版 本 ， 即 用 一 个 精确 
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最 后 一 个 方法 是 setTimestamp( ) ， 这 个 方法 在 调用 其 他 3 种 方 
法 时 经 常 被 忽略 。 但 是 ， 如 果 不 指 定 列 族 或 列 ， 则 此 调用 与 删除 整 行 
不 同 ， 它 会 删除 匹配 时 间 惟 的 或 者 比 给 定时 间 玲 | 旧 的 所 有 列 族 中 的 所 
有 列 。 表 3-5 以 表格 的 形式 展示 了 delete( ) 的 功能 ， 可 读 性 更 强 。 


表 3-5 detele() 功能 表 
无 时 间 惟 的 删除 有 时 间 惟 的 删除 


除 整 行 ， 即 所 有 列 的 所 | 从 所 有 列 族 的 所 有 列 中 删除 与 给 定时 


删除 整 


deleteColumn() 4 


删除 给 定 列 的 最 新 版 


， 保 留 旧版 本 


间 惟 相同 或 更 旧 的 版 本 


忆 的 给 定 列 的 指定 
版 本 ， 如 果 不 存 在 ， 则 不 删除 


只 删除 与 时 间 惟 匹 E 


删除 


川 除 与 给 定时 间 惟 相等 或 


出 除 给 定 列 的 所 有 版 本 


jeleteramily() | 删除 给 定 列 族 中 的 所 有 列 | 从 给 定 列 族 下 的 所 有 列 中 删除 
(包括 所 有 版 本 ) 时 间 戳 相等 或 更 旧 的 版 本 
表 3-6 列 举 了 Delete 类 提供 的 其 他 方法 ， 以 供用 户 碍 阅 。 
表 3-6 Delete 类 提供 的 其 他 方法 概览 


返回 创建 pelete 实例 时 指定 的 行 键 
返回 当前 pelete 实例 的 RowLock 实例 


人 
返回 使 用 raulk 参 数 创建 实例 时 可 选 参数 锁 ID 的 值 ， 如 果 没 有 指定 
getLockId() 则 返回 -1 


检索 Delete 实例 相关 的 时 间 戳 


检查 FamilyMap 是 否 含有 任何 条 目 ， 
oe 族 或 者 列 


getTimeStamp() 


j 户 所 指定 的 想 要 删除 的 列 


getFamilymap() | 这 个 方法 可 以 获取 用 户 通过 deleteFamily() 以 及 
deleteColumn()/deleteColumns() 添加 的 要 删除 的 列 和 列 族 ， 返 回 
的 FamilyMap 是 使 用 列 族 名 作为 键 ， 它 的 值 是 当前 列 族 下 要 删除 的 


列 限定 符 的 列表 


例 3.12 展 示 了 怎样 在 客户 端 代码 中 调用 delete( ) 函数 。 
例 3.12 ”从 HBase 中 删除 数据 的 应 用 示例 


Delete delete = new Delete(Bytes.toBytes("row1i"));@ 
delete.setTimestamp(1);@ 


delete.deleteColumn(Bytes.toBytes("colfami"),Bytes.toBytes("quali") 
,1);® 


delete.deleteColumns(Bytes.toBytes("colfam2"),Bytes.toBytes("qual1i" 
));9® 
delete.deleteColumns(Bytes.toBytes("colfam2"),Bytes.toBytes("qual3" 
), 15); 


delete.deleteFamily(Bytes.toBytes("colfam3"));@ 
delete.deleteFamily(Bytes.toBytes("colfam3"),3);@ 


table.delete(delete);® 
table.close(); 


@ 创 建 针 对 特定 行 的 Delete 实例 。 
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日 删除 一 列 中 的 特定 版 本 。 

@ 删 除 一 列 中 的 全 部 版 本 。 

@ 删 除 一 列 中 的 给 定 版 本 和 所 有 更 旧 的 版 本 。 

@ 有 删除 整个 列 族 ， 包 括 所 有 的 列 和 版 本 。 

@ 删 除 给 定 列 族 中 所 有 列 的 给 定 版 本 和 所 有 更 旧 的 版 本 。 


日 从 HBase 表 中 删除 数据 。 


这 个 例子 列举 出 了 用 户 通过 设 定 不 同 参数 操作 delete( ) 方法 的 
方法 。 像 这 样 一 个 接着 一 个 调用 没有 太 大 实际 意义 ， 读 者 可 以 随意 注 
释 挥 一 些 删 除 调用 ， 观 察 控制 台 上 显示 结 末 的 变化 。 


删除 操作 所 设 定 的 时 间 戳 只 对 匹配 的 单元 格 有 影响 ， 即 匹配 给 定 
时 间 稚 的 列 和 值 。 玫 一 方面 ， 如 有 条 不 设 定时 间 崔 ， 服 务 融 会 强制 检索 
服务 器 端 最 新 的 时 间 戳 ， 这 比 执行 一 个 具有 了 明确 时 间 戳 的 删除 要 慢 。 


如 条 皖 试 删除 未 设置 时 间 玲 的 单元 格 ， 什 么 都 不 会 发 生 。 例 如 ， 
和 


这 个 例子 同时 展示 了 用 户 目 定义 数据 版 本 的 用 法 。 它 使 用 从 1 开始 
自 增 的 序号 ， 不 依靠 隐 式 或 显 式 的 时 间 戳 。 这 种 方式 非常 有 用 ， 用 户 
必须 按 需求 自己 设置 版 本 ， 因 为 服务 器 并 不 知道 客户 端的 使 用 模式 ， 
只 会 使 用 Unix 时 间 戳 来 代替 。 


| 

BASIE, UN RS o AEUR 
本 号 可 能 会 起 作用 ， 但 是 没有 经 过 很 好 的 测试 。 请 确保 使 用 
这 项 技术 之 前 仔细 评估 过 你 的 选择 。 


使 用 自 定义 版 本 的 另 一 个 例子 可 以 在 9.4 节 中 找到 。 
2. Delete 的 列表 
基于 列表 的 delete( ) 调用 与 基于 列表 的 put( ) 调用 非常 相似 ， 


需要 创建 一 个 包含 Delete 实例 的 列表 ， 对 其 进行 配置 ， 并 调用 下 面 的 
方法 : 


void delete(List<Delete> deletes) throws IOException 


| 

例 3.13 展 示 了 影响 三 个 不 同行 的 删除 操作 ， 删 除了 它们 所 包含 的 各 
种 细节 。 当 运行 这 个 例子 时 ， 你 会 看 到 打印 输出 的 删除 前 后 的 状态 ， 
还 能 看 到 使 用 KeyValue .toString( ) 打印 输出 的 原始 的 KeyValue 
实例 。 


wa, 


一 人 正如 其 他 基于 列表 的 操作 ， 用 户 不 能 对 删除 操作 在 
远程 服务 器 上 的 执行 顺序 做 任何 假设 。 API 会 重新 排列 它 
们 ， 并 将 同一 个 region 服 务 器 的 操作 集中 到 一 个 RPC 请 求 中 
以 提升 性 能 。 如 果 需 要 确保 执行 的 顺序 ， 用 户 需 要 把 这 些 调 
用 分 成 更 小 的 组 ， 并 控制 组 之 间 的 执行 顺序 。 在 最 坏 的 情况 
下 ， 需 要 发 送 单独 的 Delete 调用 以 保证 顺序 。 


例 3.13 ”删除 值 列表 的 应 用 示例 


List< Delete> deletes = new ArrayList< Delete>();@ 


Delete delete1 = new Delete(Bytes.toBytes("row1")); 
delete1.setTimestamp(4);@ 
deletes.add(delete1); 


Delete delete2 = new Delete(Bytes.toBytes("row2")); 
delete2.deleteColumn(Bytes.toBytes("colfami"),Bytes.toBytes("qual1i" 
));® 
delete2.deleteColumns(Bytes.toBytes("colfam2"),Bytes.toBytes("qual3 
"),5);9® 

deletes.add(delete2); 


Delete delete3 = new Delete(Bytes.toBytes("row3")); 
delete3.deleteFamily(Bytes.toBytes("colfami"));® 
delete3.deleteFamily(Bytes.toBytes("colfam2"),3);@ 
deletes.add(delete3); 


table.delete(deletes);@ 


table.close(); 


@ 创 建 一 个 列表 ， 保 存 Delete 实例 。 

@ 为 删除 行 的 Delete 实例 设置 时 间 戳 。 

日 删除 一 列 的 最 新 版 本 。 

@ 在 另 一 列 中 删除 给 定 的 版 本 及 所 有 更 旧 的 版 本 。 

人 @ 有 删除 整个 列 族 ， 包 括 所 有 的 列 和 版 本 。 

@ 在 整个 列 族 中 ， 删 除 给 定 的 版 本 以 及 所 有 更 旧 的 版 本 。 
@ 删 除 HBase 表 中 的 多 行 。 


你 会 看 到 如 下 输出 9 : 


Before delete call... 
KV: row1/colfam1: qual1/2/Put/vlen=4, Value: val2 


KV: row1/colfam1:qual1/1/Put/vlen=4,Value: vali 
KV: row1/colfam1: qual2/4/Put/vlen=4,Value: val4 
KV: row1/colfam1: qual2/3/Put/vlen=4, Value: val3 
KV: row1/colfam1:qual3/6/Put/vlen=4,Value: val6 
KV: row1/colfam1:qual3/5/Put/vlen=4,Value: val5 


KV: row1/colfam2:qual1/2/Put/vlen=4, Value: val2 


KV: row1/colfam2:qual1/1/Put/vlen=4,Value: vali 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


KV: 


row1/colfam2 


row1/colfam2 


rowi1/colfam2 


rowi/colfam2: 


row2/colfam1: 


row2/colfam1: 


row2/colfam1 
row2/colfam1 


row2/colfam1: 
row2/colfam1: 


row2/colfam2: 
row2/colfam2: 
row2/colfam2: 


row2/colfam2 
row2/colfam2 
row2/colfam2 


row3/colfam1: 


row3/colfam1: 


row3/colfam1: 


row3/colfam1: 


row3/colfam1: 


row3/colfam1: 


row3/colfam2 


row3/colfam2 


:qual2/4/Put/vlen=4, Value: 


:qual2/3/Put/vlen=4, Value: 


:qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 
quali/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
:qual2/4/Put/vlen=4, Value: 
:qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 
quali/2/Put/vlen=4, Value: 
quali/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
:qual2/3/Put/vlen=4, Value: 


:qual3/6/Put/vlen=4, Value: 
:qual3/5/Put/vlen=4, Value: 


quali1/2/Put/vlen=4, Value: 


quali/1/Put/vlen=4, Value: 


qual2/4/Put/vlen=4, Value: 


qual2/3/Put/vlen=4, Value: 


qual3/6/Put/vlen=4, Value: 


qual3/5/Put/vlen=4, Value: 


:quali1/2/Put/vlen=4, Value: 


:qual1/1/Put/vlen=4, Value: 


val4 


val3 


val6 
val5 
val2 
vali 
val4 
val3 
val6 
val5 
val2 
vali 
val4 
val3 


val6 
val5 


val2 


vali 


val4 


val3 


val6 


val5 


val2 


vali 


After delete call. 
: rowl/colfami: 
: rowl/colfami: 


: row3/colfam2: 
: row3/colfam2 


: row3/colfam2: 
: row3/colfam2: 


: rowl/colfam2: 
: rowl/colfam2 


: row2/colfam1: 
: row2/colfami: 
: row2/colfami: 
: row2/colfam1: 
: row2/colfami: 


: row2/colfam2: 
: row2/colfam2: 
: row2/colfam2: 
: row2/colfam2: 
: row2/colfam2: 


: row3/colfam2: 
: row3/colfam2: 
: row3/colfam2: 


qual2/4/Put/vlen=4, Value: 
:qual2/3/Put/vlen=4, Value: 


qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


qual3/6/Put/vlen= 4,Value: 
qual3/5/Put/vlen=4, Value: 


qual3/6/Put/vlen=4, Value: 
:qual3/5/Put/vlen=4, Value: 


quali/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


quali1/2/Put/vlen=4, Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 


qual2/4/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


val4 
val3 


val6 
val5 


val6 
val5 


val6 
val5 


vali 
val4 
val3 
val6 
val5 


val2 
vali 
val4 
val3 
val6 


val4 
val6 
val5 


“Before delete call...” 中 突出 显示 W) 的 部 分 是 将 要 被 删除 的 原 
始 数据 。 这 3 行 包含 同样 的 数据 ， 由 两 个 列 族 组 成 ， 每 个 列 族 下 有 3 
列 ， 每 个 列 有 两 个 版 本 。 


示例 代码 先 删除 了 整 行 数据 中 版 本 小 于 等 于 4 的 数据 ， 
下 了 版 本 为 5 和 6 的 数据 。 


之 后 ， 使 用 两 个 指定 了 列 的 删除 操作 ， 先 后 清除 了 人 row2 上 
colfami: quali 列 的 最 新 单元 格 ， 以 及 colfam1:qual3 中 小 于 等 
于 5 的 所 有 单元 格 。 这 两 个 删除 操作 都 只 有 一 个 单元 格 满足 条 件 ， 它 们 
将 依次 被 删除 。 


这 次 操作 留 


最 后 ， 在 row-3 上 ， 示 例 代 码 删除 了 列 族 coLfaml 下 的 全 部 数 
据 ， 然 后 还 删除 了 colfam2 中 版 本 小 于 等 于 3 的 所 有 数据 。 在 示例 代 
码 执 行 的 过 程 中 ， 使 用 以 下 的 方法 可 以 看 到 KeyValue 的 详细 情况 : 


System.out.printin("KV: " + kv.toString() + 


" Value: " + Bytes.toString(kv.getValue() )) 


现在 ， 我 们 熟悉 了 Bytes 类 的 使 用 ， 可 以 用 它 打印 由 
getValue() 返回 的 KeyValue 实例 的 值 。 这 样 做 是 有 必要 的 ， 因 为 
KeyValue.toString() 方法 (03.2.17) 无 法 打印 出 实际 的 值 ， 只 
能 打印 出 关键 的 部 分 。toString( ) 无 法 打印 出 值 的 原因 是 ， 值 的 内 
容 可 能 非常 大 。 


示例 代码 插入 的 列 值 非常 短 ， 并 且 内 容 是 可 读 的 ， 所 以 在 控制 台 
上 把 结果 打印 出 来 是 安全 的 。 用 户 也 可 以 在 调试 时 使 用 类 似 的 方法 。 


请 参阅 本 书 的 源 代码 库 ， 那 里 有 例子 中 全 部 的 源码 。 用 户 可 以 从 
中 查看 数据 如 何 插 入 ， 并 最 终 形成 前 面 示例 代码 中 的 输出 。 


最 后 要 介绍 的 是 基于 列表 的 delete( ) 操作 的 异常 处 理 。 下 面 对 
传 入 的 deletes 参数 ( 即 Delete 实例 的 列表 ) 做 一 下 修改 ， 使 得 在 
调用 返回 时 ， 还 有 一 个 错误 的 Delete 实例 。 换 句 话 说， 如 果 所 有 的 操 
作 都 成 功 了 ， 这 个 列表 会 为 室 。 但 是 ， 如 果 最 后 还 有 一 个 实例 的 话 ， 
远程 服务 器 会 报告 这 个 错误 ， 这 个 调用 也 要 抛 出 异常 。 用 户 需要 用 
try/catch 语句 捕获 异常 ， 并 做 相应 处 理 。 例 3.14 是 一 个 简单 的 示 
y o 


B 


63.14 ”从 HBase 中 删除 错误 数据 


Delete delete4 = new Delete(Bytes.toBytes("row2")); 
delete4.deleteColumn(Bytes.toBytes("BOGUS"), 


Bytes.toBytes("quali"));@ 
deletes.add(delete4); 


try { 
table.delete(deletes);@ 
} catch(Exception e){ 


System.err.println("Error: " + e);® 
} 
table.close(); 


System.out.printin("Deletes length: " + deletes.size());® 
for(Delete delete : deletes){ 
System.out.printin(delete);® 


@ 添 加 一 个 错误 的 列 族 来 触发 销 误 。 


@ 从 HBase 表 中 删除 多 行 数据 。 

OLIE N ° 

@ 检 查 调用 之 后 列表 的 长 度 。 

@ 把 失败 的 delete 操 作 打印 出 来 用 于 调试 。 

这 个 例子 修改 了 例 3.13， 深 加 了 一 个 出 钳 的 删除 细 世 ， 即 添加 了 一 


NETSA (BOGUS) 列 族 。 输 出 结果 与 例 3.13 相 似 ， 只 是 中 间 有 一 些 
其 他 的 信息 : 


Before delete call... 
KV: row1/colfam1:quali/2/Put/vlen=4,Value: val2 
KV: row1/colfam1:quali/1/Put/vlen=4,Value: vali 


KV: row3/colfam2:qual3/6/Put/vlen=4,Value: val6 
KV: row3/colfam2:qual3/5/Put/vlen=4,Value: val5 


Error: 
org.apache.hadoop.hbase.client.RetriesExhaustedwithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.43:59057, 
Deletes length: 1 
row=row2, tS=9223372036854775807, families= 
{(family=BOGUS, keyvalues=\ 
(row2/BOGUS : qual1/9223372036854775807/Delete/vlen=o ) } 


After delete call... 
KV: row1/colfam1:qual3/6/Put/vlen=4,Value: val6 


KV: row1/colfam1:qual3/5/Put/vlen=4,Value: val5 


KV: row3/colfam2:qual3/6/Put/vlen=4,Value: val6 
KV: row3/colfam2:qual3/5/Put/vlen=4,Value: val5 


如 预期 的 一 样 ， 列 表 中 还 剩 下 一 个 Delete 实例 ， 束 是 包含 错误 列 
族 的 那个 。 打 印 这 个 实例 (Java 默 认 使 用 toString( ) 方法 来 打印 一 
个 对 象 ) ， 结 果 展 示 了 这 个 出 错 的 实例 的 内 部 细节 。 失 败 的 主要 原因 


征 ， 列 族 名 明显 是 错误 的 。 读 者 可 以 用 这 个 方法 检查 一 个 操作 出 销 的 
原因 ， 出 错 原 因 通 币 都 十 分 明显 。 


最 后 ， 注 意 一 下 例子 中 catch 语句 捕获 的 异常 
RetriesExhaustedwithDetailsException ， 它 在 之 前 的 例子 中 
已 经 出 现 过 两 次 了 。 这 个 异常 报告 出 错 的 操作 个 数 ， 报 告 重 试 的 次 数 
及 对 应 的 服务 器 。 更 进一步 的 处 理 方法 包括 检查 和 监控 服务 器 ， 这 些 
细节 将 在 后 面 的 章节 中 提 到 ， 这 里 返回 的 出 错 的 服务 器 地 址 可 以 帮助 
我 们 定位 错误 的 根源 。 


3. 原子 性 操作 compare-and-delete 
前 文 已 经 在 “原子 性 操作 compare-and-set” 一 闻 介绍 过 ， 如 何 使 用 原 


子 性 的 条 件 操 作 疝 表 中 插入 数据 。 有 一 个 相似 的 删除 操作 ， 提 供 了 让 
用 户 可 以 在 服务 器 端 读 取 并 修改 (read-and-modify) 的 功能 : 


boolean checkAndDelete(byte[] row,byte[] family,byte[] qualifier, 
byte[] value,Delete delete) throws IOException 


用 户 必 须 指 定 行 键 、 列 族 、 列 限定 符 和 值 来 执行 删除 操作 之 前 的 
检查 。 如 采 检 查 失 败 ， 则 不 执行 删除 操作 ， 调 用 返回 false 。 如 采 检 
a 则 执行 删除 操作 ， 调 用 返回 true 。 例 3.15 展 示 了 这 里 介绍 的 

X O 


例 3.15 ”使 用 原子 操作 compare-and-delete 删 除 值 的 应 用 示例 


Delete deletei = new Delete(Bytes.toBytes("row1")); 
delete1.deleteColumns(Bytes.toBytes("colfami"),Bytes.toBytes("qual3 
"));® 


boolean resi = table.checkAndDelete(Bytes.toBytes("rowi"), 
Bytes.toBytes("colfam2"),Bytes.toBytes("qual3"),null,delete1);@ 
System.out.println("Delete successful: " + resi);® 


Delete delete2 = new Delete(Bytes.toBytes("row1i")); 
delete2.deleteColumns(Bytes.toBytes("colfam2"),Bytes.toBytes("qual3 
"));® 

table.delete(delete2); 


boolean res2 = table.checkAndDelete(Bytes.toBytes("rowi"), 
Bytes.toBytes("colfam2"),Bytes.toBytes("qual3"),null,delete1);© 
System.out.println("Delete successful: " + res2);@ 


Delete delete3 = new Delete(Bytes.toBytes("row2")); 
delete3.deleteFamily(Bytes.toBytes("colfami"));@ 


try{ 
boolean res4 = table.checkAndDelete(Bytes.toBytes("rowi"), 


Bytes.toBytes("colfami"),Bytes.toBytes("quali"),® 
Bytes.toBytes("vali"),delete3); 


System.out.println("Delete successful: " + res4);® 
} catch(Exception e){ 

System.err.printin("Error: " + e); 
} 


@ 创 建 一 个 Delete 实例 。 


@ 检 查 指 定 列 是 否 不 存在 ， 依 检查 结果 执行 删除 操作 。 
日 打印 结果 ， 结 果 应 当 为 "Delete successful: false” ° 

@ 手 工 删 除 已 经 检查 过 的 列 。 

人 @ 兰 试 再 一 次 删除 同一 个 单元 格 。 


@ 打 印 结果 ， 应 当 为 “Delete successful: true”， 因 为 这 个 列 之 前 存在 
所 以 成 功 删 除 。 


@ 创 建 男 一 个 Delete 实例 ， 这 次 使 用 一 个 不 同 的 行 。 


@ 检 查 这 个 不 同 的 行 ， 并 执行 删除 操作 。 


@ 执 行 不 到 这 里 ， 在 此 行 之 前 有 异常 抛 出 。 
示例 的 全 部 输出 如 下 : 


Before delete call. 
: rowl/colfam1: 
: rowl/colfami: 
: rowl/colfam1: 
: rowl/colfam1: 
: rowl/colfam1: 
: row1l/colfam1: 
: rowl/colfam2: 
: rowl/colfam2: 
: rowl/colfam2: 
: rowl/colfam2: 
: rowl/colfam2: 
: rowl/colfam2: 


qual1/2/Put/vlen= 4,Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 
qual1/2/Put/vlen=4, Value: 
quali1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
qual3/6/Put/vlen=4, Value: 
qual3/5/Put/vlen=4, Value: 


Delete successful: false 
Delete successful: true 
After delete call. 


Error: 


: rowl/colfam1: 
: rowl/colfam1: 
: rowl/colfam1: 
: rowl/colfam1: 
: rowl/colfam2: 


: rowl/colfam2 


: rowl/colfam2: 
: rowl/colfam2: 


qual1/2/Put/vlen= 4,Value: 
qual1/1/Put/vlen=4, Value: 
qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
quali/2/Put/vlen=4, Value: 
:quali/1/Put/vlen=4, Value: 


qual2/4/Put/vlen=4, Value: 
qual2/3/Put/vlen=4, Value: 
org.apache.hadoop.hbase.DoNotRetryIOException: 


val2 
vali 
val4 
val3 
val2 
vali 
val4 
val3 


org.apache.hadoop.hbase.DoNotRetryIOException: 
Action's getRow must match the passed row 


null 作为 value 参数 的 传 入 值 ， 将 会 触发 一 次 “不 存 
Æ” (nonexistence) 检查 ， 即 所 指定 的 列 只 要 不 存在 ， 检 查 就 会 成 功 。 
因为 上 面 这 个 例子 在 检查 之 前 插入 了 检查 过 的 列 ， 所 以 第 一 次 检查 会 


失败 ， 调 用 会 返回 false 并 放弃 删除 操作 。 
之 后 这 一 列 做 手工 删除 ， 第 二 次 执行 检查 并 修改 (check-and- 


modify) 操作 。 这 次 检查 成 功 ， 删 除了 数据 ， 最 后 返回 true ° 


跟 之 前 关于 Put 的 CAS 调 用 一 样 ， 用 户 只 能 对 同一 行 数据 进行 检 
查 并 修改 。 例 子 中 检查 的 行 键 与 Delete 实例 自身 的 行 刍 不同， 所 以 在 


执行 检查 时 会 相应 地 抛 出 异常 。 这 个 方法 允许 用 户 做 器 列 族 检查 ， 例 
如 ， 用 户 可 以 使 用 一 组 列 控制 筷 选 其 他 列 。 

这 个 例子 还 不 足以 证 明 检 查 并 删除 (check-and-delete) 操作 的 重 
要 性 。 在 分 布 式 系统 中 ， 很 难 可 靠 地 完成 这 种 操作 ， 并 且 很 难 避 免 由 
处 部 锁 带 来 的 性 能 上 的 损失 。 换 句 话 说， 如 果 原 子 性 由 客户 端 保 证 ， 
那么 束 要 对 整 行 数据 加 排他 锁 。 如 果 在 已 加 锁 的 情况 下 客户 端 朋 种 ， 
那么 服务 器 端 必须 通过 超时 机 制 来 对 数据 解锁 。 这 样 也 需要 额外 的 
RPC 请 求 ， 这 上 比 一 次 服务 怖 端的 操作 要 慢 很 多 。 


3.3 ”批量 处 理 操 作 


现在 我 们 已 经 介绍 过 添加 、 检 索 和 删除 表 中 数据 的 操作 了 ， 不 过 
前 面 介 绍 的 操作 都 是 基于 单个 实例 或 基于 列表 的 操作 。 这 一 玉 将 会 介 
绍 一 些 API 调 用 ， 这 些 调用 可 以 批量 处 理 器 多 行 的 不 同 操作 。 


RA 
一 事实 上 ， 许 多 基于 列表 的 操作 ， 如 
delete(List<Delete> deletes) 或 者 
get(List<Get> gets) ， 都 是 基于 batch( ) 方法 实现 
的 。 它 们 都 是 一 些 为 了 方便 用 户 使 用 而 保留 的 方法 。 如 果 你 
是 新 手 ， 推 荐 使 用 batch( ) 方法 进行 所 有 操作 。 


下 面 的 客户 端 API 方 法 提供 了 批量 处 理 操作 。 用 户 可 能 注意 到 这 里 
引入 了 一 个 新 的 名 为 Row 的 类 ， 它 是 Put 、Get 和 Delete 的 祖先 ， 
或 者 说 是 父 类 。 


void batch(List< Row> actions,Object[] results) 
throws IOException, InterruptedException 
Object[] batch(List< Row> actions) 


throws IOException, InterruptedException 


使 用 同样 的 父 类 允许 在 列表 中 实现 多 态 ， 即 放 入 以 上 3 种 不 同 的 子 
类 。 这 种 调用 跟 之 前 介绍 的 基于 列表 的 调用 方法 一 样 商 单 易 用 。 下 面 
的 例 3.16 展 示 了 如 何 把 不 同 的 操作 融合 为 一 个 服务 絮 闻 调用。 
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> 清 注 意 ， 不 可 以 将 针对 同一 行 的 Put 和 Delete 操 
作 放 在 同一 个 批量 处 理 请 求 中 。 为 了 保证 最 好 的 性 能 ， 这 些 
操作 的 处 理 顺序 可 能 不 同 ， 但 是 这 样 会 产生 不 可 预料 的 结 
果 。 由 于 资源 竞争 ， 某 些 情况 下 ， 用 户 会 看 到 波动 的 结果 。 


例 3.16 ”使 用 批量 处 理 操作 的 应 用 示例 


private final static byte[] ROW1 


Bytes.toBytes("row1"); 
private final static byte[] ROW2 = Bytes.toBytes("row2"); 
private final static byte[] COLFAM1 = Bytes.toBytes("colfami");@ 
private final static byte[] COLFAM2 = Bytes.toBytes("colfam2"); 
private final static byte[] QUAL1 = Bytes.toBytes("quali"); 
private final static byte[] QUAL2 = Bytes.toBytes("qual2"); 


List< Row> batch = new ArrayList< Row>();@ 


Put put = new Put(ROW2); 
put .add(COLFAM2, QUAL1, Bytes. toBytes("val5"));®© 
batch.add(put); 


Get get1 = new Get(ROW1); 
get1.addColumn(COLFAM1, QUAL1) ; @ 
batch.add(get1); 


Delete delete = new Delete(ROW1); 
delete.deleteColumns(COLFAM1, QUAL2) ;® 
batch.add(delete); 


Get get2 = new Get(ROW2); 


get2.addFamily(Bytes.toBytes("BOGUS") );@ 
batch.add(get2); 


Object[] results = new Object[batch.size()];@ 
try { 
table. batch(batch, results); 
} catch(Exception e){ 
System.err.println("Error: " + e);® 


} 


for(int i = 0;i < results.length;i++){ 
System.out.printin("Result[" + i+ "]: " + results[i]);9® 


@ 使 用 音量 可 以 方便 重用 。 


@ 创 建 列表 存放 所 有 操作 。 

稀 添加 一 个 Put 实例 。 

@ 添 加 一 个 针对 不 同行 的 Get 实例 。 
© 添加 一 个 Delete 实例 。 

@ 添 加 一 个 会 失败 的 Get 实例 。 

@ 创 建 一 个 结果 数组 。 

@ 打 印 捕获 的 异常 。 

打印 所 有 结 

从 控制 台 上 可 以 看 到 以 下 结 


Before batch call... 


KV: rowi/colfam1i:qual1i/1/Put/vlen=4,Value: vali 
KV: row1/colfam1:qual2/2/Put/vlen=4,Value: val2 
KV: row1/colfam1:qual3/3/Put/vlen=4,Value: val3 


Result[0]: keyvalues=NONE 
Result[1]: keyvalues={row1/colfami: qual1/1/Put/vlen=4} 


Result[2]: keyvalues=NONE 
Result[3]: 
org.apache.hadoop.hbase.regionserver .NoSuchColumnFamilyException: 


org.apache.hadoop.hbase.regionserver .NoSuchColumnFamilyException: 
Column family BOGUS does not exist in... 


After batch call... 

KV: row1/colfam1:quali/1/Put/vlen=4,Value: vali 

KV: row1/colfam1:qual3/3/Put/vlen=4,Value: val3 

KV: row2/colfam2:qual1/1308836506340/Put/vlen=4, Value: val5 


Error: 
org.apache.hadoop.hbase.client.RetriesExhaustedwithDetailsException 


Failed 1 action: NoSuchColumnFamilyException: 1 time, 
servers with issues: 10.0.0.43:60020, 


与 之 前 的 例子 一 样 ， 在 执行 批量 处 理 之 前 ， 由 于 插入 了 测试 行 的 
数据 ， 因 此 先 打 印 了 测试 行 的 相关 输出 。 言 移 输 出 的 是 表 的 原 内 容 ， 
然后 是 示例 代码 产生 的 输出 ， 最 后 输出 的 十 操作 以 后 的 表 的 内 容 。 由 
输出 结果 可 见 ， 要 删除 的 列 被 删除 了 ， 新 添加 的 列 也 成 功 添加 了 。 


Get 操作 的 结果 需要 观察 输出 结果 的 中 间 部 分 ， 即 示例 代码 产生 
的 输出 。 那 些 以 Result[n] (n 从 0 到 3) 开头 的 输出 是 actions 参 
数 中 对 应 操作 的 结果 。 示 例 中 第 一 个 操作 是 Put ， 对 应 的 结果 是 一 个 
空 的 Result 实例 ， 其 中 没有 KeyValue 实例 。 这 是 批量 处 理 调 用 返 
回 值 的 通常 规则 ， 它 们 给 每 个 输入 操作 返回 一 个 最 佳 匹配 的 结果 ， 可 
能 的 返回 值 如 表 3-7 所 示 。 


表 3-7 batch() 调用 可 能 的 返回 结果 


操作 与 远程 服务 器 的 通 


Result S 配 的 行 或 列 ， 会 返回 空 的 Result 


Throwable 使 用 这 个 异常 检查 里 出 了 错 ， 也 许可 以 在 自己 的 代码 


ose | 器 端 返回 一 个 异常 时 ， 这 个 异常 会 按 原样 返回 给 客户 端 


更 进一步 地 观察 控制 台 上 输出 的 返回 结果 数组 ， 你 会 发 现 空 的 
Result 实例 打印 出 来 是 : keyvalues=NONE ° Get 请 求 成 功 找 到 了 
相 匹 配 的 结果 ， 返 回 一 个 对 应 的 KeyValue 实例 。 最 后 ， 有 一 个 
BOGUS 列 族 的 操作 请 求 并 返回 一 个 异常 供用 户 参 考 。 


48 
一 一 当 用 户 使 用 batch( ) 功能 时 ，Put 实例 不 会 被 窜 
户 端 写 入 缓冲 区 缓冲 。batch( ) 请 求 是 同步 的 ， 会 把 操作 
直接 发 送 到 服务 器 端 ， 这 个 过 程 没有 什么 延迟 或 其 他 中 间 操 
作 。 这 与 put ( ) 调用 明显 不 同 ， 所 以 请 慎重 挑选 需要 的 方 


法 。 


有 两 种 不 同 的 批量 处 理 操作 看 起 来 非常 相似 。 不 同 之 处 在 于 ， 一 
个 需要 用 户 输 入 包含 返回 结果 的 0bject 数组 ， 而 另 一 个 由 画 数 帮助 用 
户 创建 这 个 数组 。 为 什么 需要 两 个 方法 呢 ? 它们 的 语义 有 什么 不 同 吗 
(如 果 有 不 同 的 话 ) ? 它们 都 可 能 抛 出 之 前 见 到 过 的 
RetriesExhaustedwithDetailsException ， 所 以 关键 的 不 同 在 


void batch(List<Row> actions,Object[] results) 
throws IOException, InterruptedException 


上 面 这 个 方法 让 用 户 可 以 访问 部 分 结果 ， 而 下 面 这 个 方法 不 行 : 


Object[] batch(List<Row> actions) 
throws IOException, InterruptedException 


SEA SAS AI, AeA ERR, Air 
ROR Ze, Pole Pw TS 。 

而 之 前 的 方法 会 匈 加 用户 提 供 的 数组 中 填充 数据 ， 然 后 再 抛 出 异 
常 。 例 3.16 的 代码 束 采 用 了 前 一 种 方法 ， 并 提交 了 结 末 数 组 。 下 面 是 一 
些 batch( ) 方法 特性 的 汇总 。 
两 种 方法 的 共同 点 


get、put 和 delete 都 文 持 。 如 果 执 行 时 出 现 问题 ， 客 户 端 将 抛 出 寞 
党 并 报告 问题 。 它 们 部 不 使 用 客户 站 写 缓冲 区 。 


void batch(actions, results) 


能 够 访问 成 功 操作 的 结果 ， 同 时 也 可 以 获取 远程 远程 什么 需要 两 
个 方法 呢 ? 他 失败 时 的 异 第 。 


Object[] batch(actions) 


只 返回 客户 端 异 常 ， 不 能 访问 程序 执行 中 的 部 分 结果 。 


wa, 
mA 
a 好、 + 
wW a 


E 在 检查 结果 之 前 ， 所 有 的 批量 处 理 操作 都 被 执行 
了 : 即使 用 户 收 到 一 个 操作 的 异常 ， 其 他 操作 也 都 已 经 执行 
了 。 不 过 ， 在 最 坏 的 情况 下 ， 可 能 所 有 操作 都 会 返回 异常 。 


另外 ， 批 量 处 理 可 以 感知 暂时 性 错误 ， 例 如 
NotServingRegionException (表明 一 个 region 已 经 被 
移动 ) 会 多 次 重 试 这 个 操作 。 用 户 可 以 通过 调整 


hbase.client.retries.number 配置 项 (默认 是 10) 
来 增加 或 减少 重 试 次 数 。 


3.4 FB 


&put() »delete() > checkAndPut() 这 样 的 修改 操作 是 独 
立 执 行 的 ， 这 意味 着 在 一 个 串 行 方式 的 执行 中 ， 对 于 每 一 行 必须 保证 
行 级 别 的 操作 是 原子 性 的 。region 服 务 器 提供 了 一 个 行 锁 (row lock) 
的 特性 ， 这 个 特性 傈 证 了 只 有 一 个 客户 端 能 获取 一 行 数据 相应 的 锁 ， 
同时 对 该 行进 行 修改 。 在 实践 中 ， 大 部 分 客户 端 应 用 程序 都 没有 提供 
显 式 的 锁 ， 而 是 使 用 这 个 机 制 来 保障 每 个 操作 的 独立 性 。 
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一 用户 应 该 尽 可 能 地 避免 使 用 行 锁 。 就 像 在 RDBMS 
中 ， 两 个 客户 端 很 可 能 在 拥有 对 方 要 请 求 的 锁 时 ， 又 同时 请 
求 对 方 已 拥有 的 锁 ， 这 样 便 形成 了 一 个 死 锁 。 


锁 超 时 之 前 ， 两 个 被 阻塞 的 客户 端 会 占用 一 个 服务 釉 端 
的 处 理 线程 (handler) ， 而 这 个 线程 是 一 种 十 分 稀缺 的 资 
源 。 如 果 在 一 个 频繁 操作 的 行 上 发 生 了 这 种 情况 ， 那 么 很 多 
其 他 的 客户 端 会 占用 掉 其 所 有 的 处 理 线程 ， 阻 蹇 所 有 其 他 客 
户 问 访问 这 台 服 务 絮 ， 导 人 致 这 个 region 服 务 铝 将 不 能 为 其 负 
责 的 region 内 的 行 提供 服务 8 


重申 一 下 : 在 不 必要 的 情况 下 ， 尽 量 不 要 使 用 行 锁 。 如 
琳 必 须 使 用 ， 那 么 一 定 要 市 约 占用 锁 的 时 间 ! 


比如 ， 当 使 用 put ( ) 访问 服务 器 时 ，Put 实例 可 以 通过 以 下 构造 


Put(byte[] row) 


这 个 构造 函数 束 没 有 RowLock 实例 参数 ， 所 以 服务 融会 在 调用 期 
间 创 建 一 个 锁 。 实 际 上 ， 通 过 客户 端的 API， 得 不 到 这 个 生存 期 短暂 的 
服务 紫 病 的 尔 的 实例 。 


除了 服务 紫 端 隐 式 加 泉 之 外 ， 客 户 病 也 可 以 显 式 地 对 单行 数据 的 
多 次 操作 进行 加 锁 ， 通 过 以 下 调用 便 可 以 做 到 : 


RowLock lockRow(byte[] row) throws IOException 
void unlockRow(RowLock rl) throws IOException 


第 一 个 调用 lockRow( ) 需要 一 个 行 键 作为 参数 ， 返 回 一 个 
RowLock 的 实例 ， 这 个 实例 可 以 供 后 续 的 Put 或 者 Delete MMi EH 
数 使 用 。 一 旦 不 再 需要 锁 时 ， 必 须 通 过 unlockRow( ) 调用 来 释放 它 。 


每 一 个 排他 锁 (unique lock) ， 无论 是 由 服务 器 提供 的 ， 还 是 通 
过 客户 端 API 传 入 的 ， 都 能 保护 这 一 行 不 被 其 他 锁 锁 定 。 换 名 话说 ， 锁 
并 且 指 定 其 行 键 ， 一 旦 它 获得 锁定 权 残 能 防止 其 他 
并 发 修改 。 


当 一 个 锁 被 服务 器 端 或 客户 端 显 式 获 取 之 后 ， 其 他 所 有 想 要 对 这 
行 数 据 加 锁 的 客户 疹 将 会 等 待 ， 直 到 当前 锁 被 释放 ， 或 者 锁 的 租 期 超 
时 。 后 者 是 为 了 确保 错误 进程 不 会 占用 锁 太 长 时 间或 无 限期 占用 。 
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一 一 默认 的 锁 超时 时 间 是 一 分 钟 ， 但 是 可 以 在 hbase- 

site.xml 文件 中 添加 以 下 配置 项 来 修改 这 个 默认 值 ， 时 间 以 毫 


秒 为 单位 : 


< property> 
< name>hbase.regionserver.lease.period< /name> 


< value>120000< /value> 
< /property> 


通过 添加 以 上 代码 ， 超 时 时 间 被 设置 为 原来 的 两 倍 
120 秒 也 束 是 2 分 钟 。 小 心 不 要 将 这 个 值 设 得 太 大 ， 因 为 每 一 
个 想 获 取 被 锁 住 的 行 的 客户 端 都 会 阻 器 并 等 待 锁 的 恢复 。 


例 3.17 展 示 了 如 何在 行 上 创建 一 个 锁 ， 该 锁 阻 塞 所 有 的 并 发 读 取 。 
例 3.17 显 式 使 用 行 锁 


static class UnlockedPut implements Runnable { ©@ 
@Override 
public void run() { 
try { 
HTable table = new HTable(conf,"testtable"); 
Put put = new Put(ROW1); 
put .add(COLFAM1, QUAL1, VAL3); 
long time = System.currentTimeMillis(); 
System.out.printin("Thread trying to put same row now..."); 
table.put(put);@ 
System.out.println("Wait time: " + 
(System.currentTimeMillis() - time)+ "ms"); 
} catch(IOException e){ 
System.err.println("Thread error: " + e); 


System.out.printin("Taking out lock..."); 


RowLock lock = table.lockRow(ROW1) ; © 
System.out.printin("Lock ID: " + lock.getLockId()); 


Thread thread = new Thread(new UnlockedPut());® 
thread.start(); 


try { 
System.out.println("Sleeping 5secs in main()...");9 
Thread.sleep(5000) ; 

} catch(InterruptedException e){ 
// ignore 


} 


try { 
Put puti = new Put(ROW1, lock);®@ 
puti.add(COLFAM1, QUAL1, VAL1); 
table.put(put1); 


Put put2 = new Put(ROW1, lock);@ 
put2.add(COLFAM1, QUAL1, VAL2); 
table.put(put2); 
} catch(Exception e){ 
System.err.println("Error: " + e); 
} finally { 
System.out.println("Releasing lock...");® 
table.unlockRow(lock); 
} 


@ 使 用 一 个 异步 的 线程 更 新 同一 个 行 ， 但 是 不 显 式 加 锁 。 
Oput() 调用 会 阻塞 ， 直 到 锁 被 释放 。 
日 给 整 行 加 锁 。 
@ 有 局 动 那个 会 阻塞 的 异步 线程 。 
@ 休 眠 一 会 儿 ， 以 阻塞 其 他 写 入 操作 。 
@ 在 拥有 锁 的 情况 下 创建 Put ° 
@ 在 拥有 锁 的 情况 下 创建 另外 一 个 Put 。 
@ 释 放 锁 ， 让 阻塞 线程 继续 执行 。 


执行 这 个 例子 代码 时 ， 应 该 能 在 控制 台 看 到 以 下 输出 : 


Taking out lock... 

Lock ID: 4751274798057238718 
Sleeping 5secs in main()... 

Thread trying to put same row now... 


Releasing lock... 

Wait time: 5007ms 

After thread ended... 

KV: row1/colfam1:quali1/1300775520118/Put/vlen=4, Value: 
KV: row1/colfam1:quali/1300775520113/Put/vlen=4, Value: 
KV: row1/colfam1:quali1/1300775515116/Put/vlen=4, Value: 
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一 列 设置 为 两 个 不 同 的 数值 。 


主线 程 的 锁 一 释放 ， 阻 塞 线程 的 run( ) 方法 就 继续 执行 并 调用 了 
第 三 个 put 。 观 察 put 操作 在 服务 器 端的 执行 情况 ， 会 觉得 很 有 意 
思 。 读 者 可 能 注意 到 了 ，KeyValue 实例 的 时 间 戳 显示 第 三 个 put H 
有 最 小 的 时 间 鹤 ， 虽 然 这 个 put 表 面 上 是 最 后 执行 的 。 这 是 因为 线程 中 
的 put ( ) 调用 是 在 两 个 主线 程 中 的 put ( ) 之 前 执行 的 ， 这 之 后 主线 程 
休眠 了 5 秒 。 当 put 被 发 送 到 服务 器 时 ， 如 果 它 的 时 间 惟 没有 被 显 式 指 
定 ， 服 务 硕 疹 会 帮 它 设 定时 间 玲 ， 同 时 试图 获得 这 一 行 的 锁 。 但 是 示 
例 代 码 中 主线 程 已 经 获得 了 该 行 的 锁 ， 因 此 服务 硕 问 的 处 理 一 直 等 待 
了 5 秒 多 ， 锁 被 释放 才 得 已 继续 。 从 上 面 的 输出 可 以 看 出 ， 主 线程 中 两 
个 put 调用 的 执行 以 及 行 的 解锁 只 人 花费 了 7 有 翅 秒 的 时 间 。 


Get 需要 锁 吗 ? 


修改 行 时 锁定 行 是 有 意义 的 ， 那 么 获取 数据 时 有 是否 需 
要 加 锁 呢 ? Get 类 有 一 个 构造 器 允许 用 户 指 定 一 个 显 式 的 
锁 : 


Get(byte[] row, RowLock rowLock) 


这 是 遗留 的 方法 ， 但 服务 器 端 根 本 用 不 着 这 种 方法 ， 
因为 在 获取 数据 的 过 程 中 ， 服 务 器 根本 不 需要 任何 锁 ， 而 
是 应 用 了 一 个 多 版 本 的 并 发 控制 (multiversion 
concurrencycontrol-style ) © 机制 来 保证 行 级 读 操 作 。 例 
a, get() 调用 永远 不 会 返回 写 了 一 半 的 数据 ， 比 如 当 这 
些 数据 是 另 一 个 线程 或 者 客户 端 写 的 。 


这 个 束 像 是 小 规模 的 事务 系统 ， 只 有 当 一 个 变动 被 应 
用 到 整个 行 之 后 ， 客 户 问 才能 读 出 这 个 改动 。 当 改动 在 进 
行 中 时 ， 所 有 的 客户 端 读 取 操作 得 到 的 都 将 是 所 有 列 以 前 
的 状态 。 


当 用 户 试图 使 用 之 前 申请 的 显 式 锁 ， 但 锁 的 租约 已 经 超时 并 恢 
复 ， 用 户 将 会 从 服务 器 得 到 一 个 以 UnknownRowLockException 形 
式 报告 的 错误 。 这 个 异常 告诉 用 户 服 务 器 已 经 废弃 了 用 户 党 试 使 用 的 
i Re 锋 该 在 代码 中 丢弃 这 个 锁 ， 然 后 请 求 一 个 新 的 锁 再 试图 恢复 
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3.5 扫描 

在 讨论 过 基本 的 CRUD 类 型 的 操作 之 后 ， 现 在 来 看 一 下 扫描 
(scan) 技术 ， 这 种 技术 类 似 于 数据 库 系 统 中 的 游标 (cursor) ， 并 利 
用 到 了 HBase 提 供 的 底层 顺序 存储 的 数据 结构 。 © 


3.5.1 介绍 


扫描 操作 的 使 用 跟 get( ) 方法 非常 类 似 。 同 样 ， 和 其 他 函数 类 
似 ， 这 里 也 提供 了 Scan 类 。 但 是 由 于 扫 摘 操作 的 工作 方式 类 似 于 迭代 
人 器， 所 以 用 户 无 需 调 用 scan( ) 方法 创建 实例 ， 只 需 调 用 HTable 的 
getScanner() 方法 ， 此 方法 在 返回 真正 的 扫描 器 (scanner) 实例 的 
同时 ， 用 户 也 可 以 使 用 它 迭 代 获 取 数 据 。 可 用 方法 如 下 : 


ResultScanner getScanner(Scan scan) throws IOException 
ResultScanner getScanner(byte[] family)throws IOException 


ResultScanner getScanner(byte[] family,byte[] qualifier) 
throws IOException 


后 两 个 为 了 方便 用 户 ， 隐 式 地 帮 用 户 创建 了 一 个 Scan XH, 24 
中 最 后 调用 getScanner(Scan scan) 方法 。 


Scan 类 拥有 以 下 构造 磊 : 


Scan() 
Scan(byte[] startRow,Filter filter) 


Scan(byte[] startRow) 
Scan(byte[] startRow, byte[] stopRow) 


这 与 Get 类 的 不 同 点 是 显而易见 的 : 用 户 可 以 选择 性 地 提供 
startRow 参数 ， 来 定义 扫描 读 取 HBase 表 的 起 始 行 键 ， 即 行 键 不 是 
必须 指定 的 。 同 时 可 选 stopRow 参数 用 来 限定 读 取 到 何 处 停止 。 


zs 

GS da 

—— 起 始 行 包括 在 内 ， 而 终止 行 是 不 包括 在 内 的 。 一 般 
用 区 间 表 示 法 表示 为 [startRow ,stopRow]。 


扫 摘 操作 有 一 个 特点 用 户 提供 的 参数 不 必 精 确 匹 配 这 两 行 。 扫 
描 会 匹配 相等 或 大 于 给 定 的 起 始 行 的 行 键 。 如 采 没 有 显 式 地 指定 起 始 
行 ， 它 会 从 表 的 起 始 位 置 开始 获取 数据 。 
”” 当 遇 到 了 与 设置 的 终止 行 相同 或 大 于 终止 行 的 行 键 时 ， 扫 描 也 会 
停止 。 如 有 果 没 有 指定 终止 行 键 ， 会 扫 摘 到 表 尾 。 

另 一 个 可 选 参数 叫做 过 滤器 (filter ) ， 可 直接 指向 Filter 实 
filo Re Scan 实例 通常 由 空 日 构造 右 构 造 ， 但 其 所 有 可 选 参数 都 有 对 
应 的 getter 方 法 和 setter 方 法 。 


创建 Scan 实例 之 后 ， 用 户 可 能 还 要 给 它 增加 更 多 限制 条 件 。 这 种 
情况 下 ， 用 户 仍然 可 以 使 用 空 日 参数 的 扫描 ， 它 可 以 读 取 整 个 表格 ， 


ae 列 族 以 及 它们 的 所 有 列 。 可 以 用 多 种 方法 限制 所 要 读 取 的 数 


Scan addFamily(byte [] family) 
Scan addColumn(byte[] family,byte[] qualifier) 


这 里 有 很 多 与 Get 类 相似 的 功能 : 可 以 使 用 addFamily( ) 方法 
限制 返回 数据 的 列 族 ， 或 者 通过 addColumn( ) 方法 限制 返回 的 列 。 


一 一 如 果 用 户 只 需要 数据 的 子 集 ， 那 么 限制 扫描 的 范围 
就 能 发 挥 HBase 的 优势 。 因 为 HBase 中 的 数据 是 按 列 族 存储 
的 ， 如 有 果 扫 描 不 读 取 某 个 列 族 ， 那 么 整个 列 族 文件 束 都 不 会 
被 读 取 ， 这 就 是 列 式 存储 架构 的 优势 。 


Scan setTimeRange(long minStamp, long maxStamp) throws IOException 
Scan setTimeStamp(long timestamp) 


Scan setMaxVersions() 
Scan setMaxVersions(int maxVersions) 


用 户 可 以 通过 setTimestamp() 设置 详细 的 时 间 惟 ， 或 者 通过 
setTimeRange() 设置 时 间 范 围 ， 进 一 步 对 结果 进行 限制 。 还 可 以 使 
用 setMaxVersions() 方法 ， HSH 返回 每 一 列 的 一 些 特定 版 本 ， 
或 者 全 部 的 版 本 。 


Scan setStartRow(byte[] startRow) 
Scan setStopRow(byte[] stopRow) 


Scan setFilter(Filter filter) 
boolean hasFilter() 


还 可 以 使 用 SetStartRow() > setStopRow() 以 及 
setFilter() ， 进 一 步 限定 返回 的 数据 。 这 3 个 方法 中 的 参数 可 以 与 
样 。 附 加 的 hasFilter() 方法 可 以 检查 是 否 已 经 设 定 过 
ss 


还 有 一 些 相 天 的 方法 ， 见 表 3-8。 
表 3-8 Scan 类 的 其 他 方法 概览 


getStartRow()/getStopRow( ) — 


检索 Get 实例 指 ERINA 范围 或 相 
当 需 要 指定 单个 
of fa REY API 公 在 内 部 通过 
getTimeRange() setTimeStamp() 将 TimeRange 实例 的 
起 止 时 间 惟 设 为 传 入 值 ， 所 以 Get 


中 此 时 已 经 没有 getTimeStamp() 


类 
方法 
WR 


, 返回 当前 配置 下 应 该 从 表 中 获取 区 
getMaxVersions() 每 列 的 版 本 数 


可 以 使 用 特定 的 过 滤器 实例 ， 通 过 

中 规则 来 筛选 列 和 单元 格 。 使 用 

getFilter() 这 个 方法 ， 用 户 可 以 设 定 或 查看 
scan 实例 的 过 滤器 成 员 。 没 有 设置 

的 话 则 返回 nul1 ， 详 情 参 见 4.1 节 


setCacheBlocks()/getcacheBlocks() 每 个 HBase 的 region 服 务 器 都 有 一 个 


块 缓存 ， 可 以 有 效 地 保存 最 近 访 问 
过 的 数据 ， 并 以 此 来 加 速 之 后 相 邻 
言 奶 的 读 取 。 不 过 在 某 些 情况 下 ， 
例如 全 表 扫 描 ， 最 好 能 避免 这 种 机 
制 带 来 的 扰动 。 这 个 方法 能 够 控制 
本 次 读 取 的 块 缓存 机 制 是 否 局 效 


快捷 地 获取 FamilyMap 大 小 的 方法 ， 
numFamilies() 包括 daddFamily() 和 addcolumn() 
方法 添加 的 列 族 和 列 


hasFamilies() M 过 | 族 或 列 


这 些 方法 能 够 让 用 户 直 接 访问 
addFamily() 和 addcolumn() 添加 的 
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getFamilies()/setFamilyMap()/getFamilyMap() ee E y ls 
限定 符 的 列表 。getFamilies() 方法 
返回 一 个 只 包含 列 族 名 的 数组 


一 旦 设置 好 了 Scan 实例 ， 就 可 以 调用 Htable 的 getScanner() 
方法 ， 获 得 用 于 检索 数据 的 ResultScanner 实例 。 我 们 将 在 下 一 节 
中 详细 讨论 这 个 类 。 


3.5.2 ResultScanner 类 


扫 插 操作 不 会 通过 一 次 RPC 请 求 返回 所 有 匹配 的 行 ， 而 是 以 行为 
单位 进行 奴 回 。 很 明显 ， 行 的 数目 很 大 ， 可 能 有 上 千 条 甚至 更 多 ， 同 
TE 会 占用 大 量 的 系统 资源 并 消耗 很 长 时 
|} ° 


ResultScanner 把 扫 摘 操作 转换 为 类 似 的 get 控 作 ， 它 将 每 一 
行 数据 封装 成 一 个 Result 实例 ， 并 将 所 有 的 Result 实例 放 入 一 个 迭 
代 器 中 。ResultScanner 的 一 些 方法 如 下 : 


Result next() throws IOException 


Result[] next(int nbRows)throws IOException 
void close() 


有 两 种 类 型 的 next () 调用 供用 户 选 择 。 调 用 close( ) 方法 会 释 
放 所 有 由 扫描 控制 的 资源 。 


扫描 器 租约 


要 确 你 尽早 释放 扫描 如 实 例 ， 一 个 打开 的 扫 摘 器 会 占 
用 不 少 服务 端 资 源 ， 累 积 多 了 会 占用 大 量 的 扒 空 间 。 当 使 
用 完 ResultScanner 之 后 应 调用 它 的 close( ) 方法 ， 
同时 应 当 把 close( ) 方法 放 到 try/finally 块 中 ， 以 保 
证 其 在 迷 代 获取 数据 过 程 中 出 现 异常 和 错误 时 ， 仍 然 能 执 
行 close()。 


注意 为 了 位 清 ， 示 例 代码 并 未 遵循 这 个 建议 。 


就 像 行 锁 一 样 ， 扫 描 器 也 使 用 同样 的 租约 超时 机 制 ， 
保护 其 不 被 失效 的 客户 端 阻塞 太 久 。 用 户 可 以 使 用 修改 俩 
租约 处 提 到 的 那个 配置 属性 来 修改 超时 时 间 (单位 为 这 
D) ， 


< property> 
< name>hbase.regionserver.lease.period< /name> 


< value>120000< /value> 
< /property> 


用 户 需 要 确保 该 属性 值 适当 ， 这 个 值 要 同时 适用 于 锁 
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next() 调用 返回 一 个 单独 的 Result 实例 ， 这 个 实例 代表 了 下 一 
个 可 用 的 行 。 此 外 ， 用 户 可 以 使 用 next (int nbRows) 一 次 获取 多 行 
数据 ， 它 返回 一 个 数组 ， 数 组 中 包含 的 Result 实例 最 多 可 达 nbRows 
个 ， 每 个 实例 代表 唯一 的 一 行 。 当 用 户 扫 描 到 表 尾 或 到 终止 行 时 ， 由 
于 没有 足够 的 行 来 填充 数据 ， 返 回 的 结果 数组 可 能 会 小 于 既定 长 度 。 
有 关 怎 样 使 用 Result 实例 的 问题 请 参阅 前 面 介绍 的 “Result 类 ”， 更 
详细 的 内 容 请 参阅 3.2.2 节 。 


例 3.18 集 中 使 用 了 之 前 解释 过 的 功能 ， 扫 摘 了 一 张 表 ， 逐 行 处 理 了 
其 中 的 列 数 据 。 


例 3.18 ”使 用 扫描 器 获取 表 中 数据 


Scan Scan1 = new Scan();@ 

ResultScanner Scanner1 = table.getScanner(scan1);@ 

for(Result res : scanner1){ 
System.out.printlin(res);® 

} 


scanneri.close();@® 


Scan scan2 = new Scan(); 
scan2.addFamily(Bytes.toBytes("colfami"));® 
ResultScanner scanner2 = table.getScanner(scan2); 
for(Result res : scanner2){ 
System.out.printin(res); 


scanner2.close(); 


Scan scan3 = new Scan(); 
scan3.addColumn(Bytes.toBytes("colfami"),Bytes.toBytes("col-5")). 
addColumn(Bytes.toBytes("colfam2"),Bytes.toBytes("col-33")). 

setStartRow(Bytes.toBytes("row-10")). 
setStopRow(Bytes.toBytes("row-20")); 
ResultScanner scanner3 = table.getScanner(scan3); 
for(Result res : scanner3){ 
System.out.printlin(res); 
} 


scanner3.close(); 


四 创建 一 个 空 的 Scan 实例 。 
@ 取 得 一 个 扫 摘 器 迭代 访问 所 有 的 行 。 


人 @ 打 印行 内 容 。 

@ 关 闭 扫 摘 右 释放 远程 资源 。 

人 @ 只 添加 一 个 列 族 ， 这 样 可 以 茶 止 获取 “colfam2” 的 数据 。 

@ 使 用 builder 柑 式 将 详细 限制 条 件 深 加 a 到 Scan 中 。 

代码 插入 了 100 行 数据 ， 每 行 有 两 个 列 族 ， 每 个 列 族 下 包含 100 个 
列 。 第 一 个 扫 插 操作 扫 插 全 表 内 容 ， 第 二 个 扫 接 操作 只 扫 摘 一 个 列 


族 ， 最 后 一 个 扫 插 操作 有 闫 格 的 限制 条 件 ， 其 中 包括 对 行 施 围 的 限 
制 ， 同 时 还 要 求 只 扫 摘 两 个 特定 的 列 。 输 出 如 下 : 


Scanning table #3... 
keyvalues={row-10/colfami:col-5/1300803775078/Put/vlen=8, 
row-10/colfam2:col-33/1300803775099/Put/vlen=9} 
keyvalues={row-100/colfam1:col-5/1300803780079/Put/vlen=9, 
row-100/colfam2: col-33/1300803780095/Put/vlen=10} 
keyvalues={row-11/colfami:col-5/1300803775152/Put/vlen=8, 
row-11/colfam2:col-33/1300803775170/Put/vlen=9} 
keyvalues={row-12/colfami:col-5/1300803775212/Put/vlen=8, 
row-12/colfam2:col-33/1300803775246/Put/vlen=9} 
keyvalues={row-13/colfami:col-5/1300803775345/Put/vlen=8, 
row-13/colfam2:col-33/1300803775376/Put/vlen=9} 
keyvalues={row-14/colfami:col-5/1300803775479/Put/vlen=8, 
row-14/colfam2:col-33/1300803775498/Put/vlen=9} 
keyvalues={row-15/colfami:col-5/1300803775554/Put/vlen=8, 
row-15/colfam2:col-33/1300803775582/Put/vlen=9} 
keyvalues={row-16/colfami:col-5/1300803775665/Put/vlen=8, 
row-16/colfam2:col-33/1300803775687/Put/vlen=9} 
keyvalues={row-17/colfami:col-5/1300803775734/Put/vlen=8, 
row-17/colfam2:col-33/1300803775748/Put/vlen=9} 
keyvalues={row-18/colfami:col-5/1300803775791/Put/vlen=8, 
row-18/colfam2:col-33/1300803775805/Put/vlen=9} 
keyvalues={row-19/colfami:col-5/1300803775843/Put/vlen=8, 
row-19/colfam2:col-33/1300803775859/Put/vlen=9} 
keyvalues={row-2/colfam1:col-5/1300803774463/Put/vlen=7, 
row-2/colfam2:col-33/1300803774485/Put/vlen=8} 


再 强调 一 次 ， 匹 配 的 行 键 都 是 按 词典 序 排列 的 ， 这 使 得 结果 非常 
有 趣 。 用 户 可 以 简单 地 用 0 把 行 键 补 齐 ， 这 样 扫 描 出 来 结果 顺序 更 有 可 
读 性 。 这 些 痢 是 在 你 的 控制 下 完成 的 ， 所 以 请 仔细 设计 行 健 。 
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到 目前 为 止 ， 每 一 个 next ( ) 调用 都 会 为 每 行 数据 生成 一 个 单独 的 
RPC 请 求 ， 即 使 使 用 next (int nbRows) 方法 ， 也 是 如 此 ， 因 为 该 方 
法 仅仅 是 在 客户 端 循环 地 调用 next ( ) 方法 。 很 显然 ， 当 单元 格 数据 较 
小 时 ， 这 样 做 的 性 能 不 会 很 好 (参见 3.2.1 节 中 “客户 端的 写 缓冲 区 ”的 
Wie) 。 因 此 ， 如 果 一 次 RPC 请 求 可 以 获取 多 行 数 据 ， 这 样 会 更 有 意 
义 。 这 样 的 方法 可 以 由 扫描 器 缓存 (scanner caching) 实现 ， 默 认 情 况 
下 ， 这 个 缓存 是 关闭 的 。 


可 以 在 两 个 层面 上 打开 它 : 在 表 的 层面 ， 这 个 表 所 有 扫 摘 实例 的 


缓存 都 会 生效 ; 也 可 以 在 扫描 层面 ， 这 样 便 只 会 影响 当前 的 扫 摘 实 
例 。 用 户 可 以 使 用 以 下 的 HTable 方法 设置 表 级 的 扫描 器 缓存 : 


void setScannerCaching(int scannerCaching) 

int getScannerCaching() 

Fa, 

Box 
a a + 
W j; 


必用 户 可 以 修改 整个 HBase 集 群 的 默认 值 1。 只 要 把 下 
面 的 配置 项 添加 到 hbase-site.xml 中 即 可 : 


< property> 
< name>hbase.client.scanner.caching< /name> 


< value>10< /value> 
< /property> 


这 样 所 有 Scan SCAN SAS ae EA) EB I BN 10 
了 。 用 户 还 可 以 从 表 或 扫描 两 个 层面 覆盖 默认 配置 ， 但 是 需 
要 明确 这 样 做 的 目的 。 


setScannerCaching() 可 以 设置 缓存 大 小 ， 
getScannerCaching() 可 以 返回 当前 缓存 大 小 的 值 。 每 次 用 户 调用 
getScanner(scan) 之 后 ，API 都 会 把 设 定 值 配 置 到 扫描 实例 中 
除非 用 户 使 用 了 扫描 层面 的 配置 并 履 盖 了 表层 面 的 配置 ， 扫 描 层 面 的 
配置 优先 级 最 高 。 可 以 使 用 下 列 Scan 类 的 方法 设置 扫描 级 的 缓存 : 


void setCaching(int caching) 
int getCaching() 


这 两 个 方法 的 作用 和 表层 面 的 方法 一 样 ， 能 控制 每 次 RPC 调 用 取 
回 的 行 数 。 两 种 next( ) 方法 都 会 受 这 些 配 置 影响 。 


用 户 需 要 为 少量 的 RPC 请 求 次 数 和 客户 端 以 及 服务 器 端 的 内 存 消 
耗 找到 平衡 点 。 很 多 时 候 ， 将 扫描 需 缓 存 设 得 比较 高 能 提高 扫描 的 性 
能 ， 不 过 设 得 太 高 就 会 产生 不 良 影响 : 每 次 next ( ) 调用 将 会 占用 更 长 
的 时 间 ， 因 为 要 获取 更 多 的 文件 并 传输 到 客户 端 ， 如 采 返 回 给 客户 端 
的 数据 超出 了 其 扒 的 大 小 ， 程 序 就 会 终止 并 抛 出 


OutOfMemoryException 异常 。 


| 
eS 当 传 输 和 处 理 数据 的 时 间 超 过 配置 的 扫描 器 租约 超 
时 时 间 时 ， 用 户 将 会 收 到 一 个 以 
ScannerTimeoutException 形式 抛 出 的 租约 过 期 (lease 
expired) 错误 。 


例 3.19 展 示 了 扫描 器 超时 的 情况 。 
例 3.19 ”使 用 扫描 器 时 超时 


Scan scan = new Scan(); 
ResultScanner scanner = table.getScanner(scan); 


int scannerTimeout =(int)conf.getLong( 
HConstants.HBASE_REGIONSERVER_LEASE_PERIOD_KEY, -1);@ 
try { 
Thread.sleep(scannerTimeout + 5000);@ 
} catch(InterruptedException e){ 
// ignore 


while(true) { 
try { 
Result result = scanner.next(); 
if(result == null)break; 
System.out.println(result);® 
} catch(Exception e){ 
e.printStackTrace(); 
break; 
} 
} 


scanner .close(); 


@ 得 到 当前 配置 的 租约 超时 时 间 。 

@@ 休 眠 的 时 间 比 租约 超时 时 间 再 长 一 点 。 

人 @ 打 印行 的 内 容 。 

这 段 代 码 得 到 当前 配置 的 租约 时 间 ， 体 眠 了 比 这 个 时 间 更 长 的 时 


间 ， 然 后 服务 器 端 感知 租约 超时 并 触发 租约 恢复 操作 。 欣 制 台 输出 的 
结果 与 如 下 结果 类 似 〈 为 了 方便 阅读 做 了 精简 ) : 


Adding rows to table... 
Current(local)lease period: 60000 
Sleeping now for 65000ms... 


Attempting to iterate over scanner... 
Exception in thread "main" java.lang.RuntimeException: 
org.apache.hadoop.hbase.client.ScannerTimeoutException: 65094ms 
passed 
Since the last invocation, timeout is currently set to 60000 
at 
org.apache.hadoop.hbase.client .HTable$ClientScanner$1.hasNext 
at ScanTimeoutExample.main 
Caused by: org.apache.hadoop.hbase.client.ScannerTimeoutException: 
65094ms 
passed since the last invocation, timeout is currently set to 
60000 
at org.apache.hadoop.hbase.client.HTable$ClientScanner.next 
at 
org.apache.hadoop.hbase.client .HTable$ClientScanner$1.hasNext 
. 1 more 
Caused by: org.apache.hadoop.hbase.UnknownScannerException: 
org.apache.hadoop.hbase.UnknownScannerException: Name: 
-315058406354472427 
at org.apache.hadoop.hbase.regionserver .HRegionServer .next 
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获取 扫描 器 提供 的 行 。 由 于 租约 超时 ， 这 个 操作 触发 服务 器 端 超时 异 


常 ， 同 时 返回 的 异常 信息 中 还 包括 了 当前 配置 的 超时 时 间 。 
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E 用 户 可 能 会 尝试 向 配置 中 添加 如 下 信息 : 


Configuration conf = HBaseConfiguration.create() 


conf .setLong(HConstants.HBASE_REGIONSERVER_LEASE_PERIOD_KEY, 120000) 


假设 这 个 修改 把 超时 时 间 延 长 了 (在 这 个 例子 里 ， 延 长 
到 了 2 分 钟 ) 。 由 于 这 个 值 是 在 客户 端 应 用 中 配置 的 ， 不 会 
农 传 递 到 远程 region 服 务 厦 ， 所 以 这 样 的 修改 是 无 效 的 。 


如 采用 户 要 修改 之 前 讨论 的 超时 时 间 ， 用 户 必 须 修 改 服 
务 器 端 (region 服 务 器 ) 的 配置 文件 hbase-site.xml ， 修 改 完 
之 后 别 筷 了 重启 服务 器 使 配置 生殖 | 


从 上 面 打 印 出 的 堆栈 追踪 信息 中 还 可 以 看 出 : 
ScannerTimeoutException 异常 是 如 何 包装 在 
UnknownScannerException 异常 的 外 面 抛 出 的 。 以 上 信息 表明 扫 
描 器 的 next( ) 方法 使 用 扫描 器 ID 在 服务 器 端 查找 已 经 建立 的 扫描 
器 ， 但 由 于 这 个 扫描 器 有 D 的 租约 超时 ， 已 经 被 删除 了 。 换 句 话说 ， 客 
户 问 缓存 的 扫描 器 有 D 在 region 服 务 器 上 已 经 查找 不 到 了 ， 这 与 这 个 异常 
名 称 所 表达 的 含义 相符 。 


到 目前 为 止 ， 我们 已 经 介绍 了 如 何 使 用 客户 并 的 扫 插 各 级 存 来 从 
远程 region 服 务 右 癌 客 三 端 整 批 传输 数据 。 不 过 还 有 之 前 提 到 过 的 一 件 
事 需 要 注意 : 数据 量 非常 大 的 行 ， 这 些 行 有 可 能 超过 客户 端 进程 的 内 
存 容 量 。HBase 和 它 的 客户 端 API 对 这 个 问题 有 一 个 解决 方法 : 批量 。 
用 户 可 以 使 用 以 下 方法 控制 批量 获取 操作 : 


void setBatch(int batch) 
int getBatch() 


缓存 是 面向 行 一 级 的 操作 ， 而 批量 则 是 面向 列 一 级 的 操作 。 批 量 
可 以 让 用 户 选 择 每 一 次 ResultScanner 实例 的 next ( ) 操作 要 取 回 
多 少 列 。 例 如 ， 在 扫描 中 设置 setBatch(5) ， 则 一 次 next() 返回 的 
Result 实例 会 包括 5 列 。 


ES eh 


如 琳 一 行 包括 的 列 数 超过 了 批量 中 设置 的 值 ， 则 可 
以 将 这 一 和 o 每 次 next 操作 返回 一 片 。 


当 一 行 的 列 数 不 能 被 批量 中 设置 的 值 整除 时 ， 最 后 一 次 
返回 的 Result 实例 会 包含 比较 少 的 列 ， 例 如 ， 如 果 一 行 有 
17 列 ， 用 户 把 batch 值 设 为 5， 则 一 共 会 返回 4 个 Result 实 
例 ， 这 4 个 实例 中 包括 的 列 数 应 当 分 别 为 5、5、5 和 2 © 


组 合 使 用 扫描 器 缓存 和 批量 大 小 ， 可 以 让 用 户 方便 地 控制 扫描 一 
个 范围 内 的 行 键 时 所 需要 的 RPC 调 用 次 数 。 例 3.20 为 了 控制 RPC 请 求 的 
TREN, TEAR SIX MASSACRE AT Be KResult 实例 的 大 小 。 


$3.20 ”在 扫描 中 使 用 缓存 和 批量 参数 


private static void scan(int caching,int batch)throws IOException { 
Logger log = Logger.getLogger("org.apache.hadoop"); 
final int[] counters = {0,0}; 
Appender appender = new AppenderSkeleton() { 
@Override 
protected void append(LoggingEvent event) { 
String msg = event.getMessage().toString(); 
if(msg != null && msg.contains("Call: next")){ 
counters[0]++; 


} 


@Override 

public void close() {} 

@Override 

public boolean requiresLayout() { 
return false; 

} 


}; 
log.removeAllAppenders(); 
log.setAdditivity(false); 


log.addAppender (appender ) ; 
log.setLevel(Level.DEBUG) ; 


Scan scan = new Scan(); 

scan.setCaching(caching); 各 

scan.setBatch(batch); 

ResultScanner scanner = table.getScanner(scan); 

for(Result result : scanner) { 
counters[1]++;@ 

} 

scanner .close(); 

System.out.println( "Caching: " + caching + ",Batch: " + batch + 
" Results: " + counters[1] + ",RPCs: " + counters[0]); 

} 


public static void main(String[] args) throws IOException { 

scan(1,1); 

scan(200,1); 

scan(2000,100); © 

scan(2,100); 

scan(2,10); 

scan(5,100); 

scan(5, 20); 

scan(10,10); 


@@ 设 置 缓存 和 批量 处 理 两 个 参数 。 

@@ 对 返回 的 Result 实例 计数 。 

用 不 同 的 参数 组 合 测试 。 

代码 打印 出 了 这 两 个 参数 的 值 、 服 务 器 返回 的 Result 实例 数目 以 
及 获取 数据 过 程 所 发 起 的 RPC 请 求 的 数目 。 结 果 如 下 : 


Caching: 1,Batch: 1,Results: 200,RPCs: 201 
Caching: 200,Batch: 1,Results: 200,RPCs: 2 
Caching: 2000,Batch: 100,Results: 10,RPCs: 1 
Caching: 2,Batch: 100,Results: 10,RPCs: 6 


Caching: 2,Batch: 10,Results: 20,RPCs: 11 
Caching: 5,Batch: 100,Results: 10,RPCs: 3 
Caching: 5,Batch: 20,Results: 10,RPCs: 3 

Caching: 10,Batch: 10,Results: 20,RPCs: 3 


用 户 可 以 修改 调整 这 两 个 参数 来 查看 它们 对 输出 结果 的 影响 。 表 3- 
9 展示 了 一 些 组 合 。 这 些 组 合 与 例 3.20 相 关 ， 例 3.20 中 我 们 建立 了 一 张 

有 两 个 列 族 的 表 ， 添 加 了 10 行 数据 ， 每 个 行 的 每 个 列 族 下 有 10 列 。 这 

意味 着 整个 表 一 共有 200 列 (或 单元 格 ， 因 为 每 个 列 只 有 一 个 版 本 ) ， 

其 中 每 行 有 20 列 。 


表 3-9 示例 设置 及 其 影响 


每 个 列 都 作为 一 个 Result 实例 返回 。 最 
认 扫 描 完 成 


每 个 Result 实例 都 只 包含 一 列 的 值 ， 不 过 它们 都 被 一 次 
RPC 请 求 取 回 (加 一 次 完成 检查 ) 


比 量 参数 是 一 行 所 包含 的 列 数 的 一 半 ， 所 以 200 列 除 以 10， 


需要 20 个 Result 实例 。 同 时 需要 10 次 RPC 请 求 取 回 (加 一 
次 完成 检查 ) 


对 于 一 行 来 讲 ， 这 个 批量 参数 太 大 了 ， 所 以 一 行 的 20 列 都 
被 放 入 了 一 个 Result 实例 中 。 同 时 缓存 为 5， 所 以 10 个 
Result 实例 被 两 次 RPC 请 求 取 回 (加 一 次 完成 检查 ) 


同上 ， 不 过 这 次 的 批量 值 与 一 行 的 列 数 正 好 相同 ， 所 以 输 
出 与 上 面 一 种 情况 相同 

这 次 把 表 分 成 了 较 小 的 Result 实例 ， 但 使 用 了 较 大 的 缓存 
值 ， 所 以 也 是 只 用 了 两 次 RPC 请 求 就 取 回 了 数据 


一 一 要 计算 一 次 扫描 操作 的 RPC 请 求 的 次 数 ， 用 户 需 
先 计 算出 行 数 和 每 行列 数 的 乘积 (至 少 了 解 大 概 情况 ) 。 然 
后 用 这 个 值 除 以 批量 大 小 和 每 行列 数 中 较 小 的 那个 值 。 最 后 
再 用 除 得 的 结果 除 以 扫描 器 缓存 值 。 用 数学 公式 表示 如 下 : 


RPC 请 求 的 次 数 = ( 行 数 x 每 行 的 列 数 ) / 
Min (每 行 的 列 数 ， 批 量 大 小 ) Fates > 


此 外 ， 还 需要 一 些 请 求 来 打开 和 关闭 扫描 器 。 用 户 或 许 
需要 把 这 两 次 请 求 也 考虑 在 内 。 


图 3-2 展 示 了 绥 存 和 批量 两 个 参数 如 何 联 动 。 图 3-2 中 有 一 个 包含 9 
行 数据 的 表 ， 每 行 都 包含 一 些 列 。 使 用 了 一 个 缓存 为 6、 批 量 大 小 为 3 
的 扫描 器 ， 读 者 可 以 观察 到 需要 3 个 PRC 请 求 来 传送 数据 (虚线 圆 角 方 
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图 3-2 ”扫描 器 缓存 和 批量 两 个 参数 控制 RPC 的 次 数 


小 的 批量 值 使 服务 端 把 3 个 列 狼 入 一 个 Result 实例 ， 同 时 扫描 硕 
绥 存 为 6， 使 每 次 RPC 请 求 传输 6 行 ， 即 6 个 被 批 量 封 演 的 Result X 
例 。 如 有 果 没 有 指定 批量 大 小 ， 但 指定 了 扫描 器 缓存 ， 那 么 一 个 调用 结 
果 束 能 包含 所 有 的 行 ， 因 为 每 一 行 都 包含 在 一 个 Result 实例 中 。 只 有 
当 用 户 使 用 批量 模式 之 后 ， 行 内 (intra-row) 扫描 功能 才 会 启用 。 


最 初 ， 用 户 可 能 不 必 为 扫描 器 缓 存 和 批量 模式 的 使 用 操心 ， 但 当 


用 户 想 尽量 提高 和 利用 系统 性 能 时 ， 可 能 束 需 要 为 这 两 个 参数 选择 一 
个 合适 的 组 合 了 。 


3.6 ”各 种 特性 


在 深入 介绍 客户 并 可 以 利用 的 特性 之 前 ， 让 我 们 先 介绍 一 下 HBase 
和 其 客户 端 API 提 供 的 各 种 特性 或 功能 。 


3.6.1 HTable 的 实用 方法 


客户 只 API 是 由 HTable 类 的 实例 提供 的 ， 用 户 可 以 用 它 来 操作 
o o 除了 之 前 提 到 过 的 一 些 主要 特性 外 ， 还 有 以 下 一 些 值得 注意 
方法。 


void close() 


这 个 方法 之 前 提 到 过 ， 不 过 为 了 它 的 完整 性 和 重要 性 ， 我 们 在 这 
儿 要 重新 讨论 一 下 。 用 户 使 用 完 一 个 HTable 实例 之 后 ， 需 要 调用 一 次 
close() 。 这 个 方法 会 刷 写 所 有 客户 端 缓冲 的 写 操 作 : close() 77 
法 会 隐 式 调用 flushcache( ) 方法 。 


byte[] getTableName() 


这 是 一 个 获取 表 名 称 的 快捷 方法 。 


Configuration getConfiguration() 


这 个 方法 允许 用 户 访 问 HTable 实例 中 使 用 的 配置 。 因 为 得 到 的 是 
Configuration 实例 的 引用 ， 所 以 用 户 修改 的 参数 (针对 客户 端 
的 ) 都 会 立即 生效 。 


HTableDescriptor getTableDescriptor() 


这 个 方法 会 在 5.1.1 节 进行 详细 介绍 ， 每 个 表 都 使 用 一 个 
HTableDescriptor 实例 来 定义 自己 的 表 结 构 。 用 户 可 以 使 用 这 个 方 
法 访问 这 个 表 的 底层 结构 定义 。 


static boolean isTableEnabled(table) 


HTable 类 有 4 个 不 同 的 静态 辅助 方法 ， 它 们 都 需要 一 个 显 式 的 配 
置 和 一 个 表 名 。 如 果 没 有 提供 显 式 的 配置 ， 方 法 会 找到 classpath 下 的 配 
置 文件 ， 使 用 默认 值 创建 一 个 隐 式 的 配置 。 这 个 方法 可 以 检查 表 在 
ZooKeeper 中 是 否 被 标志 为 启用 j 


byte[][] getStartKeys() 
byte[][] getEndKeys() 


Pair< byte[][], byte[][]> getStartEndKeys() 


这 些 方 法 让 用 户 可 以 查看 当前 表 的 物理 分 布 情况 ， 不 过 这 个 分 布 
很 可 能 在 添加 一 些 数据 之 后 发 生变 化 。 这 些 方法 返回 了 表 的 所 有 region 
的 起 始 行 键 或 /和 终止 行 键 。 它 们 以 二 维 字 节 数组 形式 返回 ， 用 户 可 以 
使 用 Bytes.toStringBinary() 方法 打印 这 些 键 。 


void clearRegionCache() 
HRegionLocation getRegionLocation(row) 
Map< HRegionInfo, HServerAddress> getRegionsInfo( ) 


这 些 方法 可 以 帮助 用 户 获 取 茶 一 行 数据 的 具体 位 置信 息 ， 或 者 说 
这 行 数据 所 在 的 region 人 信息， 以 及 所 有 region 的 分 布 信 息 。 用 户 也 可 以 
在 必要 的 时 候 清 空 缓存 的 region 位 置信 息 。 这 些 方 法 可 以 让 高 级 用 户 了 
解 并 使 用 这 些 信息 ， 例 如 ， 控 制 集群 流量 或 者 调整 数据 的 位 置 。 


void prewarmRegionCache(Map< HRegionInfo, HServerAddress> 
regionMap ) 


static void setRegionCachePrefetch(table, enable) 
static boolean getRegionCachePrefetch(table) 


这 又 是 一 组 高 级 方法 。 在 1.4.5 节 提 到 过 ， 可 以 移 预 取 region 位 置信 
奶 来 避免 耗 时 较 多 的 操作 (查找 每 行 数据 所 属 region 地 址 直到 本 地 
region 地 址 缓存 相对 稳定 ) 。 使 用 这 些 方法 ， 用 户 可 以 先 获取 一 个 


getRegionsInfo() 访问 这 个 region 的 信息 表 ， 然 后 再 处 理 它 ) , th 
可 以 把 整 张 表 的 预 取 功 能 打开 。 


3.6.2 Bytes 类 

前 面 介 绍 过 ， 如 何 使 用 这 个 类 转化 Java 的 数据 类 型 ， 例 如 ， 将 
String 或 1ong 转化 为 HBase 原 生 文 持 的 原始 字 节 数组 。 关 于 这 个 类 
和 它 的 功能 还 有 一 些 值得 一 提 。 

大 部 分 方法 都 有 3 种 形式 ， 例 如 : 


static long toLong(byte[] bytes) 
static long toLong(byte[] bytes,int offset) 


static long toLong(byte[] bytes,int offset,int length) 
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值 ， 或 者 一 个 字 市 数组 、 一 个 偏 移 值 和 一 个 长 度 值 。 具 体 使 用 哪 一 种 
方法 取决 于 最 初 这 个 字 市 数组 是 怎么 生成 的 。 如 来 这 个 子 市 数组 之 前 
wef toBytes() 方法 生成 的 ， 用 户 就 可 以 安全 地 使 用 第 一 种 形式 的 方 
法 将 其 转化 回来 ， 只 需 送 入 这 个 字 市 数组 而 不 需要 其 他 额外 信息 。 整 
个 数组 的 内 容 部 十 转 换 过 来 的 值 。 


不 过 ，API 和 HBase 内 部 都 把 数据 存储 为 一 个 较 大 的 数组 ， 例 如 ， 
使 用 下 面 的 方法 : 


static int putLong(byte[] bytes,int offset,long val) 


这 个 方法 允许 用 户 把 一 个 long (8 AA RE HS A 
置 。 用 户 可 以 使 用 后 面 的 两 种 toLong ( ) 方法 存 取 这 种 较 大 的 字 节 数 
组 的 数据 。 


Bytes 类 文 持 以 下 原生 Java 类 型 到 字 市 数组 的 互 转 : String ` 
boolean ` short 、int、long、double 和 float 。 除 了 之 前 介 
绍 的 方法 外 ， 还 有 一 些 值得 一 提 的 方法 列举 在 表 3-10 中 。 


表 3-10 Bytes 类 提供 的 其 他 方法 概述 


与 tostring() 方法 非常 相似 ， 这 个 方法 可 以 安全 地 把 不 能 打 
印 的 信息 转换 为 人 工 可 读 的 十 六 进 制 数 。 如 果 用 户 不 清楚 字 
节 数 组 中 的 内 容 ， 就 可 以 使 用 这 个 方法 把 内 容 打印 出 来 ， 比 
如 打印 到 控制 台 或 日 志文 件 中 


aT TT 让 用 户 可 以 对 两 个 byte[] 《 即 字 节 数组 ) 进行 比 
compareTo()/equals() 较 。 前 者 一 个 比较 结果 ， 后 者 返回 一 个 布尔 值 ， 表 示 两 
个 数组 等 


可 以 把 两 个 字 节 数组 连接 在 一 起 形成 一 个 新 的 数 
组 ， 或 者 可 以 取 到 字 节 数组 头 或 尾 的 一 部 分 
Bees 户 给 定 的 字 节 数组 中 二 分 查找 一 个 目标 值 ， 该 方法 可 以 
y 0 字 节 数组 上 对 用 户 要 查找 的 值 和 键 进行 操作 
incrementeytes() | 一 个 long 类 型 数据 转化 成 的 字 节 数 组 与 ong 的 数据 相 加 并 返 
y 回 字 节 数组 ， 用 户 可 以 使 用 负数 参数 进行 减法 
Bytes 类 与 Java 提 供 的 ByteBuffer RATHER TBS ° HAIN 
是 ， 前 者 所 有 的 操作 都 不 需要 创建 一 个 新 的 实例 。 这 是 考虑 到 某 些 情 
况 下 的 性 能 优化 ， 因 为 HBase 内 部 使 用 了 其 中 的 许多 方法 并 多 次 调用 ， 
不 创建 实例 也 就 避免 了 许多 不 必要 的 垃圾 回收 。 


完整 的 文档 请 参阅 基于 JavaDoc 的 API 文 档 9 o 


® region 服 务 器 采用 了 一 种 多 版 本 并 发 控制 机 制 ， 具 体 实 现在 
ReadwriteConsistencyControl (简称 为 RWCC) 类 中 。 这 种 机 
制 保 证 了 读 程序 读 取 数据 时 可 以 不 用 等 待 写 程序 完成 写 操作 。 写 程序 
则 需要 等 待 其 他 写 程序 完成 写 操作 之 后 才能 继续 执行 。 


@ 全 局 唯一 标识 符 (Universally Unique Identifier) 细 市 请 参阅 
http://en.wikipedia.org/wiki/Universally_unique_identifier ° 


© 见 维基 百科 的 “Unix time” ( http://en.wikipedia.org/wiki/Unix_epoch 


@ 完整 的 描述 请 参阅 API 文 档 中 KeyValue 类 的 介绍 ( 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/KeyValue.html 
) o 


© 参见 维基 百科 的 “Remote procedure call” ( 
http://en.wikipedia.org/wiki/Remote_procedure_call ) 


© 为 了 方便 阅读 ， 相 关 细 世 被 分 为 多 组 ， 组 之 间 用 罕 行 隅 开 。 


ie) 


@ 见 链接 http://en.wikipedia.org/wiki/Multiversion_concurrency_control 


扫描 操 作 与 不 可 回 滚 的 游标 操作 相似 。 用 户 需要 先 声 明 ， 然 后 打 
开 ， 并 获取 数据 ， 最 后 关闭 数据 库 族 标 。 不 过 扫 摘 操作 没有 声明 这 一 
步 ， 否 则 扫描 操作 和 游标 操作 的 使 用 方法 就 是 一 样 的 了 。 参 见 维基 百 
科 中 的 Cursors。 


© 参阅 在 线 文 档 Bytes 一 节 ( 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/util/Bytes/html 


第 4 章 “窗户 端 API: 高 级 特性 


在 了 解 HBase 的 基本 客户 端 API 之 后 ， 我 们 将 进一步 讨论 HBase 提 
供给 客户 端的 高 级 特性 。 


4.1 过 滤器 


HBase 过 滤器 (filter) 提供 了 非常 强大 的 特性 来 帮助 用 户 提 高 其 处 
理 表 中 数据 的 效率 。 用 户 不 仅 可 以 使 用 HBase 中 预定 义 好 的 过 滤器 ， 而 
且 可 以 实现 目 定 义 的 过 滤 右 。 下 面 将 介绍 这 两 类 过 滤 厦 。 


4.1.1 过 滤器 简介 


HBase 中 两 种 主要 的 数据 读 取 函数 是 get ( ) 和 scan() ， 它 们 都 支 
持 直接 访问 数据 和 通过 指定 起 止 行 键 访问 数据 的 功能 。 读 者 可 以 在 查 
询 中 添加 更 多 的 限制 条 件 来 减少 查询 得 到 的 数据 量 ， 这 些 限制 可 以 是 
指定 列 族 、 列 、 时 间 惟 以 及 版 本 号 。 


这 些 方法 可 以 帮助 用 户 控制 哪些 数据 在 查询 时 被 包含 其 中 ， 但 是 
它们 缺少 一 些 细 粒 度 的 筛选 功能 ， 比 如 基于 正则 表达 式 对 行 键 或 值 进 
行 筛选 。Get 和 Scan 两 个 类 都 支持 过 滤器 ， 理 由 如 下 : 这 类 对 象 提 
供 的 基本 API 不 能 对 行 键 、 列 名 或 列 值 进行 过 减 ， 但 站 通过 过 滤 希 可 以 
达到 这 个 目的 。 过 滤 铬 最 基本 的 接口 叫 Filter ， 除 此 之 外 ， 还 有 一 些 
由 HBase 提 供 的 无 需 编程 束 可 以 直接 使 用 的 类 。 


同时 用 户 还 可 以 通过 继承 Filter 类 来 实现 自己 的 需求 。 所 有 的 过 
滤器 都 在 服务 端 生效 ， 叫 做 谓词 下 推 (predicate push down) 。 这 样 可 
以 保证 被 过 滤 掉 的 数据 不 会 被 传送 到 客户 端 。 用 户 可 以 在 客户 端 代码 
中 实现 过 滤 的 功能 〈 但 会 影响 系统 性 能 ) ， 因 为 在 这 种 情况 下 服务 器 
端 需要 传输 更 多 的 数据 到 客户 端 ， 用 户 应 当 尽量 避 免 这 种 情况 。 


图 4-1 搞 述 了 过 滤 货 怎样 在 客户 站 进 行 配置 ， 怎 样 在 网 络 传输 中 被 
序列 化 ， 怎 样 在 服务 器 端 执行 。 


Store Store Store Store Store Store Store 
Scanner} | Scanner Scanner} | Scanner Scanner} | Scanner Scanner] | Scanner 


RegionScanner RegionScanner RegionScanner RegionScanner 
RegionServer 
3. RegionServer 使 用 过 滤器 对 Scan 进行 序列 化 ， 并 同时 使 用 Scan 和 内 部 的 扫描 器 


图 4-1 过 滤器 在 客户 端 创建 ， 通 过 RPC 传 送 到 服务 器 端 ， 然 后 在 服务 器 端 执行 过 滤 操作 
1. 过 滤器 层次 结构 


在 过 滤器 层次 结构 的 最 底层 是 Filter 接口 和 FilterBase 抽象 
类 ， 它 们 实现 了 过 滤器 的 空 壳 和 骨架 ， 这 使 得 实际 的 过 滤器 类 可 以 避 
免 许 多 重复 的 结构 代码 。 


大 部 分 实体 过 滤器 类 一 般 都 直接 继承 自 FiLterBase ， 也 有 一 些 
间接 继承 自 该 类 。 不 过 它们 的 使 用 流程 是 相同 的 ， 用 户 定义 一 个 所 需 
要 的 过 滤器 实例 ， 同 时 把 定义 好 的 过 滤器 实例 传递 给 Get 或 Scan 实 
例 : 


setFilter(filter) 


在 实例 化 过 滤器 的 时 候 ， 用 户 需 要 提供 一 些 参数 来 设 定 过 滤器 的 
用 途 。 其 中 有 一 组 特殊 的 过 滤器 ， 它 们 继承 自 CompareFilter ， 需 
要 用 户 同 时 提供 至 少 两 个 特定 的 参数 ， 这 两 个 参数 会 被 基 类 用 于 执行 
它 的 任务 。 下 面 用 户 会 学 习 到 这 两 个 参数 的 类 型 以 方便 使 用 。 


一 一 人 过 滤器 可 以 作用 于 用 户 插入 的 整 行 数据 ， 所 以 用 户 
可 以 基于 任意 可 用 的 信息 来 决定 如 何 处 理 这 一 行 。 这 些 信息 


包括 行 键 、 列 名 、 实 际 的 列 值 和 时 间 稚 等 。 


我 们 将 位 短 讨论 下 涉及 值 或 者 比较 这 两 种 情况 ， 下 面 介 
绍 的 各 种 方法 都 可 以 使 用 。 特 定 过 滤 右 的 实现 可 能 只 考虑 了 
其 中 一 条 标准 。 


2. 比较 运算 符 


因为 继承 自 CompareFilter 的 过 滤器 比 基 类 FilterBase 多 了 
一 个 compare( ) 方法 ， 它 需要 使 用 传 入 参数 定义 比较 操作 的 过 程 。 可 
用 值 已 经 列 在 表 4-1 中 。 


表 4-1 CompareFilter 中 的 比较 运算 符 


配 小 于 设 定 值 的 值 


i } ü l RR 


i i d wen É “ 
i l l -e i . 


当 过 滤 万 被 应 用 时 ， 比 较 运 算 符 可 以 决定 什么 被 包含 ， 什 么 被 排 
除 。 这 样 可 以 帮助 用 户 筛选 数据 的 一 段子 集 或 一 些 特定 数据 。 


3. 比较 器 


CompareFilter 所 需要 的 第 二 类 类 型 是 比较 器 (comparator) , 
比较 器 提供 了 多 种 方法 来 比较 不 同 的 键 值 。 比 较 絮 都 继承 目 
WritableByteArrayComparable , 
WritableByteArrayComparable 223 [writable 和 
Comparable 接口 。 如 果 您 仅仅 想 使 用 HBase 原 生 提 供 的 比较 器 实现 
则 可 以 不 业 天 注 细 市 ，HBase 提 供 的 比较 絮 罗 列 于 表 4-2， 这 些 比 
sa aa 只 需要 提供 一 个 国 值 ， 这 个 值 将 会 与 表 中 的 实际 值 进 
ITER © 


表 4-2 HBase 对 基于 CompareFilter 的 过 滤器 提供 的 比较 器 


比较 器 


BinaryComparator EH Bytes .compareTo() tee RES RE 


四 HJ 相似 ， 便 , 进行 匹 
BinaryPrefixComparator 面 的 相 人 eyes compareTo() 过 全 
17T he BU AE Bic 


BitConparator 通过 eitwiseop 类 提供 的 按 位 与 (wp ) 、 或 (on) > 
(xor ) 操作 执行 位 级 比较 


RegexStringComparator 


一 个 正则 表达 式 ， 在 实例 化 这 个 比较 器 的 时 候 去 匹 百 
表 中 的 数据 


EA E EREE PAE Estrin 实例 ， 同 时 通过 contains() 
eas 操作 匹配 字符 串 


a 
siad 后 面 的 3 种 比较 器 ， 即 BitCcomparator ` 
RegexStringComparator 和 SubstringComparator 

， 只 能 与 EQUAL FINOT _EQUAL 运算 符 搭配 使 用 ， 因 为 这 些 
比较 器 的 compareTo( ) 方法 匹配 时 返回 0， 不 匹配 时 返回 
1。 如 果 和 LESS 或 GREATER 运算 符 搭配 使 用 ， 会 产生 错误 
结果 。 


通 单 每 个 比较 套 都 有 一 个 市 比较 值 参数 的 构造 范 数 。 
用 户 需要 定义 一 个 值 来 跟 每 个 单元 格 做 比较 。 一 些 构造 画 数 使 用 字 
数组 作为 参数 ， 并 通过 二 进 制 进行 比较 ， 还 有 一 些 使 用 String Z 参数 
进行 比较 。 例 4.1 展 示 了 这 
Pat, 能 2 


| 

ENOL, tn 
RegexStringComparator #lSubstringComparator 
, EOP AY eta BETS, SEYA RE STUR ° AN ERY 
它们 都 需要 将 给 定 的 值 转化 为 String。 截 取 字 符 串 子 串 和 
正则 式 的 处 理 也 需要 花费 额外 的 时 间 。 


4.1.2 ”比较 过 滤器 


HBase 提 供 的 第 一 种 过 滤器 实现 就 是 比较 过 滤器 (comparison 
filter) 。 如 前 所 述 ， 用 户 创建 实例 时 需要 一 个 比较 运算 符 和 一 个 比较 
铬 实例 。 每 个 比较 过 滤 妖 的 构造 方法 都 有 一 个 从 CompareFilter 继 
承 来 的 签名 方法 。 


CompareFilter(CompareOp valueCompareOp, 
WritableByteArrayComparable valueComparator ) 


用 户 需 要 提供 比较 运算 符 和 比较 类 来 让 过 滤器 工作 。 后 面 读者 会 
看 到 实现 了 特殊 比较 的 实际 过 滤器 。 


一 一 上 用 户 需要 了 解 ，HBase 中 过 滤器 本 来 的 目的 是 为 了 
筛 掉 无 用 的 信息 。 被 过 滤 掉 的 信息 不 会 被 传送 到 客户 端 。 过 
滤器 不 能 用 来 指定 用 户 需要 哪些 信息 ， 而 是 在 读 取 数据 的 过 
程 中 不 返回 用 户 不 想 要 的 信息 。 


正好 相反 ， 所 有 基于 CompareFilter 的 过 滤 处 理 过 程 
与 上 面 所 描述 的 恰好 相反 ， 它 们 返回 匹配 的 值 。 换 句 话说 ， 
用 户 需 要 根据 过 滤器 的 不 同 规则 来 小 心地 挑选 过 滤器 。 例 
如 ， 如 果 用 户 需要 返回 大 于 或 等 于 某 值 的 数据 ， 就 不 应 当 使 
用 LESS 来 跳 过 不 需要 的 数据 ， 而 应 当 使 用 GREATER _OR 
_EQUAL 来 包括 所 有 符合 条 件 的 数据 。 


1. 行 过 滤器 (RowFilter ) 


行 过 滤器 基于 行 键 来 过 滤 数 据 。 例 4.1 展 示 了 如 何 通过 使 用 不 同 的 
过 滤器 来 获取 需要 的 行 。 使 用 多 种 比较 运算 符 来 返回 符合 条 件 的 行 
同 。 用 户 可 以 随意 地 修改 代码 来 改变 
RER © 


例 4.1 使 用 过 滤器 来 挑选 特定 的 行 


Scan scan = new Scan(); 
scan.addColumn(Bytes.toBytes("colfami"),Bytes.toBytes("col-0")); 


Filter filter1 = new RowFilter(CompareFilter.CompareOp.LESS_OR_ 
EQUAL, @ 

new BinaryComparator(Bytes.toBytes("row-22"))); 
scan.setFilter(filter1); 
ResultScanner Scanner1 = table.getScanner(scan); 
for(Result res : scanner1){ 

System.out.printlin(res); 


scanneri1.close(); 


Filter filter2 = new RowFilter(CompareFilter.CompareOp.EQUAL, @ 
new RegexStringComparator(".*-.5")); 
scan.setFilter(filter2); 
ResultScanner scanner2 = table.getScanner(scan); 
for(Result res : scanner2){ 
System.out.println(res); 


scanner2.close(); 


Filter filter3 = new RowFilter(CompareFilter.CompareOp.EQUAL, © 


new SubstringComparator("-5")); 
scan.setFilter(filter3); 
ResultScanner scanner3 = table.getScanner(scan); 
for(Result res : scanner3){ 
System.out.println(res); 


} 


scanner3.close(); 


= @ 创 建 一 个 过 小 器， 指定 比较 运 滤 符 和 比较 器 ， 这 里 需要 精确 匹 


@ 创 建 另 一 个 过 滤器 ， 使 用 正则 表达 式 来 匹配 行 键 。 
@ 创 建 第 三 个 过 滤器 ， 使 用 子 串 匹配 方法 。 
终端 的 输出 如 下 : 


Adding rows to table... 

Scanning table #1... 
keyvalues={row-1/colfam1:col-0/1301043190260/Put/vlen=7} 
keyvalues={row-10/colfami:col-0/1301043190908/Put/vlen=8} 
keyvalues={row-100/colfam1:col-0/1301043195275/Put/vlen=9} 
keyvalues={row-11/colfami:col-0/1301043190982/Put/vlen=8} 
keyvalues={row-12/colfami:col-0/1301043191040/Put/vlen=8} 
keyvalues={row-13/colfami:col-0/1301043191172/Put/vlen=8} 
keyvalues={row-14/colfami:col-0/1301043191318/Put/vlen=8} 
keyvalues={row-15/colfami:col-0/1301043191429/Put/vlen=8} 
keyvalues={row-16/colfami:col-0/1301043191509/Put/vlen=8} 
keyvalues={row-17/colfami:col-0/1301043191593/Put/vlen=8} 
keyvalues={row-18/colfami:col-0/1301043191673/Put/vlen=8} 
keyvalues={row-19/colfami:col-0/1301043191771/Put/vlen=8} 
keyvalues={row-2/colfam1:col-0/1301043190346/Put/vlen=7} 
keyvalues={row-20/colfami:col-0/1301043191841/Put/vlen=8} 
keyvalues={row-21/colfami:col-0/1301043191933/Put/vlen=8} 
keyvalues={row-22/colfami:col-0/1301043191998/Put/vlen=8} 
Scanning table #2... 
keyvalues={row-15/colfami:col-0/1301043191429/Put/vlen=8} 
keyvalues={row-25/colfami:col-0/1301043192140/Put/vlen=8} 
keyvalues={row-35/colfami:col-0/1301043192665/Put/vlen=8} 
keyvalues={row-45/colfami:col-0/1301043193138/Put/vlen=8} 
keyvalues={row-55/colfami:col-0/1301043193729/Put/vlen=8} 
keyvalues={row-65/colfami:col-0/1301043194092/Put/vlen=8} 
keyvalues={row-75/colfami:col-0/1301043194457/Put/vlen=8} 
keyvalues={row-85/colfami:col-0/1301043194806/Put/vlen=8} 
keyvalues={row-95/colfami:col-0/1301043195121/Put/vlen=8} 


Scanning table #3... 

keyvalues={row-5/colfam1:col-0/1301043190562/Put/vlen=7} 
keyvalues={row-50/colfami:col-0/1301043193332/Put/vlen=8} 
keyvalues={row-51/colfami:col-0/1301043193514/Put/vlen=8} 
keyvalues={row-52/colfami:col-0/1301043193603/Put/vlen=8} 
keyvalues={row-53/colfami:col-0/1301043193654/Put/vlen=8} 
keyvalues={row-54/colfami:col-0/1301043193696/Put/vlen=8} 
keyvalues={row-55/colfami:col-0/1301043193729/Put/vlen=8} 
keyvalues={row-56/colfami:col-0/1301043193766/Put/vlen=8} 
keyvalues={row-57/colfami:col-0/1301043193802/Put/vlen=8} 
keyvalues={row-58/colfami:col-0/1301043193842/Put/vlen=8} 
keyvalues={row-59/colfami:col-0/1301043193889/Put/vlen=8} 


e 过 滤器 精确 匹配 了 所 需要 的 行 键 。 返 回 的 结果 中 
包 揪 了 所 有 行 Zae 定 值 的 行 。 用 户 需 要 Co a 


fE, PARRE 典 序 排列 的 。 第 二 个 过 滤器 使 用 正则 表达 式 筛 
第 三 个 使 用 子 串 第 选 结果 。 结 果 表明 过 滤器 工作 正常 。 


2. 列 族 过 滤器 (FamilyFilter ) 


这 个 过 滤器 与 行 过 滤器 (RowFilter ) 相似 ， 不 过 它 是 通过 比较 
列 族 而 不 是 比较 行 键 来 返回 结果 的 。 通 过 使 用 不 同 组 合 的 运算 符 和 比 
， 用 户 可 以 在 列 族 一 级 筛选 所 需 的 数据 。 例 4.2 展 示 了 如 何 使 用 它 
| 


例 4.2 使 用 过 滤器 来 返回 特定 的 列 族 


Filter filter1 = new FamilyFilter(CompareFilter.CompareOp.LESS, @ 
new BinaryComparator(Bytes.toBytes("colfam3"))); 


Scan scan = new Scan(); 

scan.setFilter(filter1); 

ResultScanner scanner = table.getScanner(scan);@ 

for(Result result : scanner) { 
System.out.println(result); 


scanner .close(); 


Get get1 = new Get(Bytes.toBytes("row-5")); 
geti.setFilter(filter1); 

Result resulti = table.get(get1i);® 
System.out.println("Result of get(): " + result1); 


Filter filter2 = new FamilyFilter(CompareFilter.CompareOp.EQUAL, 
new BinaryComparator (Bytes. toBytes("colfam3"))); 

Get get2 = new Get(Bytes.toBytes("row-5"));@ 

get2.addFamily(Bytes.toBytes("colfami")); 

get2.setFilter(filter2); 

Result result2 = table.get(get2);® 

System.out.println("Result of get(): " + result2); 


@ 创 建 一 个 过 滤器 ， 指 定 比 较 运 算 符 和 比较 右 。 

@ 使 用 过 滤 硕 扫描 表 。 

四 使 用 相同 的 过 滤 背 获取 一 行 数 据 。 

@ 在 一 个 列 族 上 创建 过 滤器 ， 同 时 获取 男 一 行 数据 。 

人 @ 使 用 新 的 过 滤 占 获取 同一 行 数据 ， 此 时 返回 结 来 为 “NONE”。 


输出 结果 (为 了 方便 阅读 稍 作 整 理 ) 表明 了 过 滤器 的 作用 。 存 入 
表 的 数据 有 4 个 列 族 ， 每 个 列 族 有 两 列 ， 同 时 一 共有 10 行 数据 。 


Adding rows to table... 

Scanning table... 

keyvalues={row-1/colfam1:col-0/1303721790522/Put/vlen=7, 
row-1/colfam1:col-1/1303721790574/Put/vlen=7, 
row-1/colfam2:col-0/1303721790522/Put/vlen=7, 
row-1/colfam2:col-1/1303721790574/Put/vlen=7} 

keyvalues={row-10/colfami:col-0/1303721790785/Put/vlen=8, 
row-10/colfami:col-1/1303721790792/Put/vlen=8, 
row-10/colfam2:col-0/1303721790785/Put/vlen=8s, 
row-10/colfam2:col-1/1303721790792/Put/vlen=8} 


keyvalues={row-9/colfam1:col-0/1303721790778/Put/vlen=7, 
row-9/colfam1:col-1/1303721790781/Put/vlen=7, 
row-9/colfam2:col-0/1303721790778/Put/vlen=7, 
row-9/colfam2:col-1/1303721790781/Put/vlen=7} 


Result of get(): keyvalues={row-5/colfami:col- 

0/1303721790652/Put/vlen=7, 
row-5/colfam1:col-1/1303721790664/Put/vlen=7, 
row-5/colfam2:col-0/1303721790652/Put/vlen=7, 
row-5/colfam2:col-1/1303721790664/Put/vlen=7} 


Result of get(): keyvalues=NONE 


最 后 的 get ( ) 调用 说 明 用 户 可 以 GERE) 通过 使 用 过 滤器 指定 
一 个 列 族 ， 同时 使 用 addFamily() 指定 男 一 列 族 ， 从 而 得 到 一 个 空 的 
结果 集 


3. 列 名 过 滤器 (QualifierFilter ) 


例 4.3 展 示 了 使 用 列 名 进行 痛 选 的 类 似 逻 辑 。 这 种 操作 可 以 帮助 用 
户 租 选 特定 的 列 。 


例 4.3 ”使 用 过 滤器 饰 选 列 


Filter filter = new 
QualifierFilter(CompareFilter.CompareOp.LESS_OR_EQUAL, 
new BinaryComparator(Bytes.toBytes("col-2"))); 


Scan scan = new Scan(); 

scan.setFilter(filter); 

ResultScanner scanner = table.getScanner(scan); 

for(Result result : scanner) { 
System.out.println(result); 


scanner .close(); 


Get get = new Get(Bytes.toBytes("row-5") ) 
get.setFilter(filter); 

Result result = table.get(get); 
System.out.println("Result of get(): " + result); 


4. 值 过 滤器 (valueFilter ) 


hPa as AT DAR BY FP oc EET ° 5 
RegexStringComparator 配合 使 用 ， 可 以 使 用 功能 强大 的 表达 式 来 
进行 往 选 。 例 4.4 展 示 了 这 项 功能 。 需 要 注意 的 是 ， 在 使 用 特定 比较 器 
的 上 时候， 只 能 与 部 分 运算 符 搭 配 。 在 本 例 中 ， 我 们 使 用 了 子 字符 串 匹 
配 ， 这 种 匹配 只 能 使 用 EQUAL FINOT EQUAL 运算 符 。 


例 4.4 ”使 用 值 过 滤器 的 例子 


Filter filter = new ValueFilter(CompareFilter .CompareOp.EQUAL, ® 
new SubstringComparator(".4")); 


Scan scan = new Scan(); 
scan.setFilter(filter);@ 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner) { 
for(KeyValue kv : result.raw()){ 
System.out.printin( "KV: " + kv + ",Value: " + © 
Bytes. toString(kv.getValue())); 
} 


scanner .close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter);®@ 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 


@@ 创 建 过 滤器 ， 指 定 比较 运算 符 和 比较 器 。 

@ 设 置 扫描 过 程 中 的 过 滤器 。 

@ 打 印 结果 并 检查 。 

@ 将 同样 的 过 滤器 应 用 于 Get 实例 。 
5. 参考 列 过 滤器 (DependentColumnFilter ) 

这 里 有 一 种 更 复杂 的 过 滤器 ， 这 种 过 滤器 不 仅仅 简单 地 通过 用 户 
指定 的 信息 筛选 数据 。 这 种 过 滤器 允许 用 户 指定 一 个 参考 列 或 是 引用 
列 ， 并 使 用 参考 列 控制 其 他 列 的 过 滤 。 参 考 列 过 滤器 使 用 参考 列 的 时 


并 在 过 渡 时 包括 所 有 与 引用 时 间 鹤 相同 的 列 。 下 面 是 它 的 构造 
法 : 


DependentColumnFilter(byte[] family,byte[] qualifier) 
DependentColumnFilter(byte[] family,byte[] qualifier, 
boolean dropDependentColumn ) 


DependentColumnFilter(byte[] family,byte[] qualifier, 
boolean dropDependentColumn, CompareOp valueCompareop, 
WritableByteArrayComparable valueComparator ) 


由 于 参考 过 滤器 也 是 继承 自 CompareFilter， 所 以 它 也 可 以 帮 
助 用 户 筛选 列 ， 不 过 这 个 过 滤器 是 基于 这 些 列 值 进行 算 选 的 。 用 户 可 
以 把 它 理解 为 一 个 ValueFilter 和 一 个 时 间 惟 过 滤器 的 组 合 。 用 户 可 
以 传 入 比较 运算 符 和 基准 值 来 启用 ValueFilter 的 功能 。 这 个 过 滤器 
的 构造 函数 默认 允许 用 户 在 所 有 列 上 名 略 运 算 符 和 比较 器 ， 以 及 屏蔽 
按 值 沛 选 的 功能 ， 也 就 是 说 整个 过 渡 絮 只 基于 参考 列 的 时 间 稚 进行 往 


y 


] 先 。 


例 4.5 展 示 了 过 滤器 的 用 法 ， 例 子 展示 了 各 个 可 选 参数 的 作用 。 
dropDependentColumn 参数 可 以 帮助 用 户 操作 参考 列 : 该 参数 设 为 
false 或 true 决定 了 参考 列 可 以 被 返回 还 是 被 丢弃 。 


例 4.5 ”使 用 过 滤器 返回 一 些 特定 的 列 


private static void filter(boolean drop, 
CompareFilter.CompareOp operator, 
WritableByteArrayComparable comparator ) 
throws IOException { 
Filter filter; 
if(comparator != null){ 
filter = new DependentColumnFilter(Bytes.toBytes("colfami"), 
Bytes.toBytes("col-5"),drop, operator, comparator); 
} else { 
filter = new DependentColumnFilter (Bytes. toBytes("colfami"),@ 
Bytes.toBytes("col-5"),drop); 


} 


Scan scan = new Scan(); 
scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner) { 
for(KeyValue kv : result.raw()){ 
System.out.println("Kv: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 
} 


scanner .close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter); 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 
} 


public static void main(String[] args)throws IOException { 

filter(true, CompareFilter.CompareOp.NO_OP, null); 
filter(false, CompareFilter.CompareOp.NO_OP,null);@ 
filter(true, CompareFilter .CompareOp.EQUAL, 

new BinaryPrefixComparator(Bytes.toBytes("val-5"))); 
filter(false, CompareFilter.CompareOp.EQUAL, 

new BinaryPrefixComparator(Bytes.toBytes("val-5"))); 
filter(true, CompareFilter .CompareOp.EQUAL, 

new RegexStringComparator(".*\\.5")); 
filter(false, CompareFilter.CompareOp.EQUAL, 

new RegexStringComparator(".*\\.5")); 


@ 使 用 多 个 参数 创建 过 滤器 。 
@ 使 用 多 个 参数 调用 过 滤 占 方法 。 


应 


| 
S 这 种 过 滤器 与 扫描 操作 的 批量 处 理 功能 不 兼容 ， 换 
句 话 说， 需要 使 用 Scan ,setBatch( ) 方法 将 batch 值 设 
为 一 个 比 0 大 的 数 。 然 而 ， 过 滤器 需要 查看 整 行 数据 来 决定 
哪些 数据 被 过 滤 ， 使 用 批量 处 理 可 能 会 导致 取 到 的 数据 中 不 
包括 参考 列 ， 因 此 结果 有 错 。 


如 朱 局 用 批量 处 理 模 式 ， 用 户 会 遇 到 以 下 错误 : 


Exception org.apache.hadoop.hbase. filter .IncompatibleFilter 
Exception: 


Cannot set batch on a scan using a filter that returns true for 
filter. hasFilterRow 


PAF AF Z ote za ieer, AE rib TATA ASR Fe Bl] 
By TA) PT AZ AR © ARGS arme H Bek SU TB] GE AIS] BE BR 
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例子 中 filter( ) 方法 被 多 种 不 同 的 组 合 参数 调用 ， 展 示 了 如 何 
使 用 内 建 值 过 滤器 和 终止 标志 位 来 操纵 返回 的 数据 集 。 


4.1.3 ”专用 过 滤器 


HBase 提 供 的 第 二 类 过 滤器 直接 继承 自 FiLterBase ， 同 时 用 于 
更 特定 的 使 用 场景 。 其 中 的 一 些 过 滤器 只 能 做 行 筛选 ， 因 此 只 适用 于 
扫 摘 操作 。 对 get(0 方 法 来 说 ， 这 些 过 滤器 限制 得 过 于 苛刻 : 要 么 包括 
整 行 ， 要 么 什么 都 不 包括 。 


1. 单列 值 过 滤器 (SinglecolumnValueFilter ) 
用 户 针 对 如 下 情况 时 可 以 使 用 该 过 滤器 : 用 一 列 的 值 决定 是 否 


行 数据 被 过 滤 。 首 和 允 设 定 待 检查 的 列 ， 然 后 设置 竺 检查 的 列 的 对 应 
{Eo BARFE KAN P : 


SingleColumnValueFilter(byte[] family,byte[] qualifier, 
CompareOp compareOp, byte[] value) 


SingleColumnValueFilter(byte[] family, byte[] qualifier, 
CompareOp compareOp, WritableByteArrayComparable comparator) 


第 一 个 构造 函数 较为 简单 ， 因 为 它 只 在 内 部 创建 一 个 
BinaryComparator 实例 。 第 二 个 构造 函数 中 所 需 的 参数 与 用 户 一 直 
在 使 用 的 基于 CompareFilter 的 类 相同 ， 尽 管 
SingleColumnValueFilter 并 不 是 直接 继承 自 CompareFilter,， 
但 还 是 使 用 了 相同 的 参数 类 型 。 


同时 ， 过 滤器 还 提供 了 一 些 辅 助 方法 帮助 用 户 微调 过 滤 行 为 。 


boolean getFilterIfMissing() 
void setFilterIfMissing(boolean filterIfMissing) 


boolean getLatestVersionOnly( ) 
void setLatestVersionOnly(boolean latestVersionOnly) 


前 者 决定 了 当 参 考 列 个 存在 时 如 何 处 理 这 一 行 。 默 认 的 这 一 行 是 
被 包含 在 结果 中 的 ， 用 户 可 以 合用 setFilteriTMissfhg(truej $ 
过 滤 这 些 行 ， 也 就 是 说 ， 在 这 样 设置 以 后 ， 所 有 不 包含 参考 列 的 行 都 
可 以 被 过 滤 掉 。 


用 户 在 扫描 时 必须 包括 参考 列 ， 用 户 使 用 类 似 于 
addColumn() 的 方法 把 参考 列 添加 到 查询 中 。 如 果 用 户 没 
有 这 么 做 ， 也 就 是 说 扫描 结 果 中 没有 包括 参考 列 ， 那 么 结果 
可 能 为 空 或 包含 所 有 行 ， 至 于 具体 情况 会 根据 
getFilterIfMissing() 的 设 定 值 来 返回 。 


f@AsetLatestVersionOnly(false) 可 以 改变 过 滤器 的 行 
为 ， 默 认 值 为 true ， 此 时 过 滤器 只 检查 参考 列 的 最 新 版 本 ， 设 为 
false 之 后 会 检查 所 有 版 本 。 例 4.6 组 合 了 这 些 特性 来 获取 一 组 特定 的 
行 * 


例 4.6 ”使 用 过 滤器 返回 包含 特定 列 中 特定 值 的 行 


SingleColumnValueFilter filter = new SingleColumnValueFilter ( 
Bytes. toBytes("colfami"), 
Bytes.toBytes("col-5"), 
CompareFilter .CompareOp.NOT_EQUAL, 
new SubstringComparator("val-5")); 


filter.setFilterIfMissing(true); 


Scan scan = new Scan(); 
scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner) { 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " 
Bytes. toString(kv.getValue())); 
} 


scanner .close(); 


Get get = new Get(Bytes.toBytes("row-6")); 
get.setFilter(filter); 
Result result = table.get(get); 
System.out.printlin("Result of get: "); 
for(KeyValue kv : result.raw()){ 
System.out.println("KVv: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 


+ 


2. 单列 排除 过 滤器 (SingleColumnValueExcludeFilter ) 


单列 排除 过 滤器 继承 自 SingleCcolumnValueFilter ， 经 过 拓 
展 后 提供 一 种 略微 不 同 的 语意 : 参考 列 不 被 包括 到 结果 中 。 换 句 话 
说 ， 用 户 可 以 使 用 与 之 前 相同 的 特性 和 方法 来 控制 过 滤器 的 工作 ， 唯 
一 的 不 同 是 ， 客 户 端 ResulLt 实例 中 用 户 永 远 不 会 获得 作为 检查 目标 的 


参考 列 。 
3. 前 缀 过 滤器 (PrefixFilter ) 


在 构造 当前 过 滤器 时 传 入 一 个 前 级 ， 所 有 与 前 级 匹配 的 行 都 会 被 


返回 到 客户 端 。 构 造 贸 数 如 下 : 


public PrefixFilter(byte[] prefix) 


例 4.7 在 常用 测试 数据 集中 验证 了 这 个 过 滤器 的 功能 。 
例 4.7 使 用 前 级 过 滤器 


Filter filter = new PrefixFilter(Bytes.toBytes("row-1")); 


Scan scan = new Scan(); 
scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner) { 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 


} 


scanner .close(); 


Get get = new Get(Bytes.toBytes("row-5")); 
get.setFilter(filter); 
Result result = table.get(get); 
for(KeyValue kv : result.raw()){ 
System.out.println("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 


需要 用 户 注意 的 是 ，get ( ) 方法 并 没有 返回 任何 结果 ， 因 为 它 请 
求 的 行 与 过 滤 需 的 前 绥 不 匹配 。 这 个 过 滤 亏 在 使 用 get ( ) 方法 时 作用 
不 大 ， 但 古 在 扫 摘 操作 中 非 第 有 用 。 


扫描 操作 以 字典 序 查找 ， 当 遇 到 比 前 绥 大 的 行 时 ， 扫 描 操作 束 结 
束 了 。 通 过 与 起 始 行 配合 使 用 ， 过 虑 器 的 扫描 性 能 大 大 提高 ， 原 因 是 
当 它 发 现 后 面 的 行 不 符合 要 求 时 会 全 部 跳 过 。 


4. 分 页 过 滤器 (PageFilter ) 
用 户 可 以 使 用 这 个 过 滤器 对 结果 按 行 分 页 。 当 用 户 创建 当前 过 滤 


器 实例 时 需要 指定 pageSize 参数 ， 这 个 参数 可 以 控制 每 页 返回 的 行 
Hy o 


X 


一 人 在 物理 上 分 离 的 服务 器 中 并 行 执行 过 滤 操 作 时 ， 需 
要 注意 以 下 几 个 事项 。 在 不 同 的 region 服 务 器 上 并 行 执行 的 
过 滤器 不 能 共享 它们 现在 的 状态 和 边界 ， 因 此 ， 每 个 过 滤器 
都 会 在 完成 扫描 前 获取 pageCount 行 的 结果 ， 这 种 情况 使 
得 分 页 过 滤器 可 能 失效 ， 极 有 可 能 返回 的 比 所 需要 的 多 。 最 
终 客 户 端 在 合并 结果 时 可 以 选择 返回 所 有 结果 ， 也 可 以 使 用 
API 根 据 需 求饶 选 结果 。 


客户 端 代码 会 记录 本 次 扫 摘 的 最 后 一 行 ， 并 在 下 一 次 获取 数据 时 
把 记录 的 上 次 扫 摘 的 最 后 一 行 设 为 这 次 扫描 的 起 始 行 ， 同 时 保留 相同 
的 过 滤 属 性 ， 然 后 依次 进行 迭代 。 

分 页 时 对 一 次 返回 的 行 数 设 定 了 严格 的 限制 ， 一 次 扫 朱 所 复 兰 的 
行 数 很 可 能 是 多 于 分 页 大 小 的 ， 一 旦 这 种 情况 发 生 ， 过 滤器 有 一 种 机 
制 通知 region 服 务 器 停止 扫描 。 


例 4.8 把 以 上 介绍 的 机 制 放 在 了 一 起 ， 并 展示 了 如 何在 客户 端 连 续 
IAT CP Bee TARE BAT ° 


例 4.8 ”使 用 过 滤器 按 行 分 页 


Filter filter = new PageFilter(15); 


int totalRows = 0; 
byte[] lastRow = null; 
while(true) { 
Scan scan = new Scan(); 
scan.setFilter(filter); 
if(lastRow != null){ 
byte[] startRow = Bytes.add(lastRow, POSTFIX); 
System.out.printin("start row: " + 
Bytes. toStringBinary(startRow) ); 


scan.setStartRow(startRow) ; 
} 
ResultScanner scanner = table.getScanner(scan); 
int localRows = 0; 
Result result; 
while((result = scanner.next())!= null){ 
System.out.printin(localRows++ + ": " + result); 
totalRows++; 
lastRow = result.getRow(); 
} 
scanner .close(); 
if(localRows == 0)break; 


System.out.printin("total rows: " + totalRows); 


HBase 中 的 行 键 是 按 字 典 序 排列 的 ， 因 此 返回 的 结果 也 是 如 此 排序 


的 ， 并 且 起 始 行 是 被 包括 在 结果 中 的 。 用 户 需 要 拼接 一 个 零 字 廊 (一 
个 长 度 为 零 的 字 节 数组 ) 到 之 前 的 行 键 ， 这 样 可 以 保证 最 后 返回 的 行 
在 本 轮 扫 搞 时 不 被 包括 。 当 重 置 扫描 的 边界 时 ， 零 字 世 是 最 聪明 可 车 
的 方式 ， 因 为 零 字 世 是 最 小 的 增幅 。 即 使 有 一 行 的 行 键 正好 与 之 前 一 
行 加 零 字 世相 同 ， 在 这 一 轮 循环 时 也 不 会 有 问题 ， 因 为 起 始 行 在 扫 摘 
时 是 被 包括 在 内 的 。 


5. 行 键 过 滤器 (KeyOnlyFilter ) 


在 一 些 应 用 中 只 需要 将 结果 中 KeyValue 实例 的 键 返回 ， 而 不 需 
要 返回 实际 的 数据 。Key0nlyFilter 提供 了 可 以 修改 扫描 出 的 列 和 
单元 格 的 功能 。 这 个 过 滤器 通过 
KeyValue.convertToKeyOnly(boolean) 方法 帮助 调用 只 返回 键 
不 返回 值 。 


这 个 过 滤器 的 构造 函数 中 需要 一 个 叫 lenAsVal 的 布尔 参数 。 这 
个 参数 会 被 传 入 convertToKey0nly( ) 方法 中 ， 它 可 以 控制 
KeyValue 实例 中 值 的 处 理 。 默 认 值 为 false， 设 置 为 false 时 ， 值 
ee 设置 为 true 时 ， 值 被 设 为 原 值 长 度 的 字 
节 数 组 。 


键 虽 然 包 含 了 有 意义 的 信息 ， 但 值 的 长 度 可 能 用 来 做 二 次 排序 并 
需要 快速 迭代 所 有 列 ， 此 时 前 段 描述 中 的 后 者 对 当前 的 应 用 非常 有 
H ° 11.70 PAM AAG © 


6. 首次 行 键 过 滤器 (FirstKeyOnlyFilter ) 


如 采用 户 需 要 访问 一 行 中 的 第 一 列 (HBase 隐 式 排序 ， 则 这 种 过 
滤器 可 以 满足 需求 。 这 种 过 滤器 通常 在 行 数 统计 (row counter) 的 应 
用 场景 中 使 用 ， 这 种 场景 只 需要 检查 这 一 行 是 否 存 在 。 在 列 式 存 储 数 
据 库 中 如 采 某 一 行 存在 ， 则 行 中 必然 有 列 。 


由 于 列 也 按 字典 序 排列 ， 因 此 其 他 可 能 用 到 的 场景 是 按照 时 间 先 
后 生成 列 名 ， 这 样 最 旧 的 列 就 会 排 在 最 前 面 ， 因 此 时 间 惟 最 久 的 列 会 
最 先 被 检索 到 。 这 个 场景 与 当前 的 过 滤器 结合 使 用 时 ， 通 过 单一 的 扫 
描 操 作 就 可 以 得 到 每 行 中 最 早 创建 的 列 。 

这 个 类 使 用 了 过 滤器 框架 提供 的 另 一 个 优化 特性 : 它 在 检查 完 第 
一 列 之 后 会 通知 region 服 务 器 结束 对 当前 行 的 扫描 ， 并 跳 到 下 一 行 ， 与 
全 表 扫 描 相 比 ， 其 性 能 得 到 了 提升 。 
7. 包含 结束 的 过 滤器 (InclusiveStopFilter ) 

扫描 操作 中 的 开始 行 被 包含 到 结果 中 ， 但 终止 行 被 排除 在 外 。 使 
用 这 个 过 滤器 时 ， 用 户 也 可 以 将 结束 行 包括 到 结果 中 。 例 4.9 从 row-3 
开始 扫描 ， 到 row-5 结束 扫描 。 


例 4.9 ”使 用 包含 结束 行 的 过 滤器 取 回 结束 行 


Filter filter = new InclusiveStopFilter(Bytes.toBytes("row-5")); 


Scan scan = new Scan(); 

scan.setStartRow(Bytes.toBytes("row-3")); 

scan.setFilter(filter); 

ResultScanner scanner = table.getScanner(scan); 

for(Result result : scanner){ 
System.out.printin(result); 


} 
scanner .close(); 


示例 运行 时 控制 台 的 输出 结果 如 下 所 示 : 


Adding rows to table... 
Results of scan: 


keyvalues={row-3/colfam1:col-0/1301337961569/Put/vlen=7} 


keyvalues={row-30/colfami: 
keyvalues={row-31/colfam1i: 
keyvalues={row-32/colfam1i: 
keyvalues={row-33/colfami: 
keyvalues={row-34/colfam1i: 
keyvalues={row-35/colfam1: 
keyvalues={row-36/colfam1i: 
keyvalues={row-37/colfami: 
keyvalues={row-38/colfami: 
keyvalues={row-39/colfam1: 


col-0/1301337961610/Put/vlen=8} 
col-0/1301337961612/Put/vlen=8} 
col-0/1301337961613/Put/vlen=8} 
col-0/1301337961614/Put/vlen=8} 
col-0/1301337961615/Put/vlen=8} 
col-0/1301337961616/Put/vlen=8} 
col-0/1301337961617/Put/vlen=8} 
col-0/1301337961618/Put/vlen=8} 
col-0/1301337961619/Put/vlen=8} 
col-0/1301337961620/Put/vlen=8} 


keyvalues={row-4/colfam1:col-0/1301337961571/Put/vlen=7} 


keyvalues={row-40/colfam1i: 
keyvalues={row-41/colfam1: 
keyvalues={row-42/colfam1i: 
keyvalues={row-43/colfami: 
keyvalues={row-44/colfami: 
keyvalues={row-45/colfam1i: 
keyvalues={row-46/colfam1: 
keyvalues={row-47/colfam1i: 
keyvalues={row-48/colfam1i: 
keyvalues={row-49/colfam1i: 


col-0/1301337961621/Put/vlen=8} 
col-0/1301337961622/Put/vlen=8} 
col-0/1301337961623/Put/vlen=8} 
col-0/1301337961624/Put/vlen=8} 
col-0/1301337961625/Put/vlen=8} 
col-0/1301337961626/Put/vlen=8} 
col-0/1301337961627/Put/vlen=8} 
col-0/1301337961628/Put/vlen=8} 
col-0/1301337961629/Put/vlen=8} 
col-0/1301337961630/Put/vlen=8} 


keyvalues={row-5/colfam1:col-0/1301337961573/Put/vlen=7} 


8. AYERS (TimestampsFilter ) 


当 用 户 需 要 在 扫描 结 采 中 对 版 本 进行 细 粒 度 的 控制 时 ， 这 个 过 渡 
器 可 以 满足 需求 。 用 户 需要 传 入 一 个 装载 了 时 间 戳 的 List 实例 : 


TimestampsFilter(List< Long> timestamps) 


re 
如 前 文 所 述 ， 一 个 版 本 (version) 是 指 一 个 列 在 一 
个 特定 时 间 的 值 ， 因 此 用 一 个 时 间 戳 (timestamp) 来 表示 。 
当 过 滤器 请 求 一 系列 的 时 间 惟 时 ， 它 会 找到 与 其 中 时 间 惟 精 


确 匹 配 的 列 版 本 。 


例 4.10 在 第 一 个 扫描 中 使 用 了 一 个 包括 3 个 时 间 鹤 的 过 滤 履 
二 个 扫描 中 增加 了 一 个 时 间 范 围 限 制 。 


， 在 第 


例 4.10 ”使 用 时 间 惟 过 滤 数 据 


List< Long> ts = new ArrayList< Long>(); 
ts.add(new Long(5)); 

ts.add(new Long(10));@® 

ts.add(new Long(15)); 

Filter filter = new TimestampsFilter(ts); 


Scan scani = new Scan(); 

scani.setFilter(filter);@® 

ResultScanner scanneri = table.getScanner(scan1); 

for(Result result : scanner1){ 
System.out.println(result); 


scanner1.close(); 

Scan scan2 = new Scan(); 

scan2.setFilter(filter); 

scan2.setTimeRange(8,12);® 

ResultScanner scanner2 = table.getScanner(scan2); 

for(Result result : scanner2){ 
System.out.println(result); 

} 


scanner2.close(); 


@ 问 列表 中 添加 时 间 惟 。 

@@ 癌 Scan 实例 中 添加 过 滤 履 

人 @ 添 加 时 间 范 围 限 制 ， 看 它 如 何 影 响 过 滤器 的 行为 。 
以 下 是 节选 的 输出 : 


Adding rows to table... 

Results of scan #1: 

keyvalues={row-1/colfam1:col-10/10/Put/vlen=8, 
row-1/colfam1:col-15/15/Put/vlen=8s, 


row-1/colfam1:col-5/5/Put/vlen=7} 
keyvalues={row-10/colfam1i:col-10/10/Put/vlen=9, 
row-10/colfami:col-15/15/Put/vlen=9, 
row-10/colfam1:col-5/5/Put/vlen=8} 
keyvalues={row-100/colfam1:col-10/10/Put/vlen=10, 
row-100/colfam1:col-15/15/Put/vlen=10, 
row-100/colfami:col-5/5/Put/vlen=9} 


Results of scan #2: 
keyvalues={row-1/colfam1:col-10/10/Put/vlen=8} 
keyvalues={row-10/colfami:col-10/10/Put/vlen=9} 
keyvalues={row-100/colfam1:col-10/10/Put/vlen=10} 
keyvalues={row-11/colfami:col-10/10/Put/vlen=9} 
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iS ia 结 末 ， 时 间 范 围 与 过 滤 旧 部 起 了 作用 ， 输 出 结 来 同时 
被 它们 限制 。 


9. 列 计数 过 滤器 (ColumnCountGetFilter ) 


用 户 可 以 使 用 这 个 过 滤 医 来 限制 每 行 最 多 取 回 多 少 列 。 你 可 以 使 
用 以 下 构 千 器 来 设置 这 个 数 子 : 


ColumnCountGetFilter(int n) 


一 行 的 列 数 达到 设 定 的 最 大 值 时 ， 这 个 过 虚 器 会 停止 整个 扫描 
操作 ， 所 以 它 不 太 适 合 扫描 操作 ， 反 而 比较 适合 在 get ( ) 方法 中 使 
用 。 
10. 列 分 页 过 滤器 (ColumnPaginationFilter ) 


与 PageFilter 相似 ， 这 个 过 滤 磺 可 以 对 一 行 的 所 有 列 进 行 分 
。 它 的 构造 器 需要 两 个 参数 ; 


ColumnPaginationFilter(int limit,int offset) 


ERB Pra tints Be /)Toffset 的 列 ， 并 包括 之 后 所 有 偏 移 量 在 
limit 之 前 (包含 limit ) 的 列 。 例 4.11 在 一 次 扫描 操作 中 使 用 了 这 
SEE ° 


例 4.11 对 一 行 中 的 所 有 列 分 页 


Filter filter = new ColumnPaginationFilter(5,15); 


Scan scan = new Scan(); 
scan.setFilter(filter); 
ResultScanner scanner = table.getScanner(scan); 


for(Result result : scanner) { 
System.out.printin(result); 


scanner .close(); 


示例 代码 的 输出 如 下 : 


Adding rows to table... 

Results of scan: 

keyvalues={row-01/colfami:col-15/15/Put/vlen=9, 
row-01/colfami:col-16/16/Put/vlen=9, 
row-01/colfami:col-17/17/Put/vlen=9, 
row-01/colfami:col-18/18/Put/vlen=9, 
row-01/colfam1:col-19/19/Put/vlen=9} 


keyvalues={row-02/colfami:col-15/15/Put/vlen=9, 
row-02/colfami:col-16/16/Put/vlen=9, 
row-02/colfami:col-17/17/Put/vlen=9, 
row-02/colfami:col-18/18/Put/vlen=9, 
row-02/colfam1:col-19/19/Put/vlen=9} 


Wa 


Ey 
AE 这 个 例子 通过 在 行 和 列 的 后 面 添加 了 一段 用 作 记 数 
的 部 分 改变 了 它们 的 计数 方式 。 例 如 第 一 行 被 补 位 成 了 


row-91。 这 也 展示 了 如 何 使 用 补 全 的 字段 让 排序 的 结 有 果 更 
加 可 读 易 全 ， 换 名 话说， 让 输出 结果 像 字 典 或 电话 短 。 


整个 10 行 数据 都 被 打印 出 来 ， 并 且 返 回 的 列 都 是 在 offset =15 和 
limit=5 的 范围 内 ， 每 个 结果 集 有 5 列 。 


11. 列 前 级 过 滤器 (ColumnPrefixFilter ) 


类 似 于 PrefixFilter ， 这 个 过 小 絮 通 过 对 列 名 称 进行 前 级 匹配 
过 滤 o 用 户 需要 指定 一 个 前 缀 来 创建 过 滤器 。 


ColumnPrefixFilter(byte[] prefix) 


所 有 与 设 定 前 级 匹配 的 列 都 被 包含 在 结果 中 。 
12. 随机 行 过 滤器 (RandomRowFilter ) 


最 后 ， 有 一 种 过 小 器 可 以 让 结果 中 包含 随机 行 。 构 造 画 数 需 要 传 
入 参数 chance ，chance 取 值 区 间 在 0.0 到 1.0 之 间 。 


RandomRowFilter(float chance) 


在 过 滤器 内 部 会 使 用 Java 方 法 Random .nextFloat() 来 决定 一 行 
是 否 被 过 小， 使 用 这 个 方法 的 结果 会 与 用 户 设 定 的 chance 进 行 比较 。 
如 果 用 户 为 chance 赋 一 个 负 值 会 导致 所 有 结果 都 被 过 滤 掉 ， 相 反 地 ， 
如 果 chance 大 于 1.0 则 结果 集中 包含 所 有 行 。 


41.4 ”附加 过 滤器 


目前 HBase 提 供 的 过 滤器 已 经 十 分 强大 ， Jao isan AT pe Pe 
PC > FRAY RES RAAT 9 ET Pll SB BE, © ERI Ps ll AMIR 


Rk ET kas ASS , 但 却 可 以 应 用 在 其 他 过 滤器 上 。 这 正 是 附加 过 
滤器 。”(decorating filter) 想 要 提供 的 功能 。 


1. 跳 转 过 滤器 (SkipFilter ) 


这 个 过 滤器 包装 了 一 个 用 户 提 供 的 过 滤器 ， 当 被 包装 的 过 滤器 遇 
到 一 个 需要 过 滤 的 KeyValue 实例 时 ， 用 户 可 以 拓展 并 过 滤 整 行 数 
据 。 换 句 话说 ， 当 过 滤器 发 现 某 一 行 中 的 一 列 需 要 过 滤 时 ， 那 么 整 行 
数据 都 将 被 过 滤 掉 。 


Fa, 
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”被 包装 的 过 滤器 © 必须 实现 fiLlterKeyValue( ) 
方法 ， 否 则 SkipFilter 无 法 正常 工作 。 这 是 因为 
SkipFilter 只 通过 检查 这 个 方法 的 返回 结果 来 决定 如 何 处 
理 这 一 行 。 参 考 表 4-5 来 查看 兼容 的 过 滤器 概述 。 


例 4.12 将 SkipFilter 和 ValueFilter 组 合 起 来 获取 不 包含 空 列 
值 的 行 ， 同 时 过 滤 掉 其 他 不 符合 条 件 的 行 。 


例 4.12 根据 另 一 个 过 滤器 的 结果 使 用 SkipFilter 过 滤 整 行 数据 


Filter filter1 = new ValueFilter(CompareFilter .Compare0p.NOT_EQUAL, 
new BinaryComparator (Bytes. toBytes("val-0"))); 


Scan scan = new Scan(); 
scan.setFilter(filter1);@ 
ResultScanner Scanner1 = table.getScanner(scan); 
for(Result result : scanner1){ 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes.toString(kv.getValue())); 
} 


scanner1.close(); 


Filter filter2 = new SkipFilter(filter1); 


scan.setFilter(filter2);@ 
ResultScanner scanner2 = table.getScanner(scan); 
for(Result result 


} 
} 


for(KeyValue kv : 
System.out.println("KV: 


: scanner2){ 


result.raw()){ 


Bytes.toString(kv.getValue())); 


scanner2.close(); 


四 添加 ValueFilter 到 第 一 个 扫描 中 。 
@ 在 第 二 个 扫描 中 添加 一 个 用 SkipFilter 装饰 过 的 过 


运行 时 示例 代码 应 当 有 如 下 输出 ， 


x 
可 


Adding rows to table... 


Results of scan #1: 
row-01/colfam1: 
row-01/colfam1: 
row-01/colfam1: 
row-01/colfam1: 
row-01/colfam1: 
row-02/colfam1: 


row-02/colfam1 


row-02/colfam1: 
row-02/colfam1: 


col-00/0/Put/vlen=5, Value: 
col-01/1/Put/vlen=5, Value: 
col-02/2/Put/vlen=5, Value: 
col-03/3/Put/vlen=5, Value: 
col-04/4/Put/vlen=5, Value: 
col-00/0/Put/vlen=5, Value: 
:col-01/1/Put/vlen=5, Value: 
col-03/3/Put/vlen=5, Value: 
col-04/4/Put/vlen=5, Value: 


Total KeyValue count for scan #1: 122 


Results of scan #2: 

:col-00/0/Put/vlen=5, Value: 
:col-01/1/Put/vlen=5, Value: 
col-02/2/Put/vlen=5, Value: 
col-03/3/Put/vlen=5, Value: 
col-04/4/Put/vlen=5, Value: 
col-00/0/Put/vlen=5, Value: 
col-01/1/Put/vlen=5, Value: 
col-02/2/Put/vlen=5, Value: 
:col-03/3/Put/vlen=5, Value: 
col-04/4/Put/vlen=5, Value: 


row-01/colfam1 
row-01/colfam1 


row-01/colfam1: 
row-01/colfam1: 
row-01/colfam1: 
row-07/colfam1: 
row-07/colfam1: 
row-07/colfam1: 


row-07/colfam1 


row-07/colfam1: 


"+ kv + ",Value: 


W + 


WHEE ° 


每 次 调用 所 得 结果 的 顺序 有 可 


Total KeyValue count for scan #2: 50 
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值 ， 所 以 在 一 行 中 可 能 有 一 个 或 多 个 列 的 值 为 空 。 一 些 行 的 茶 些 列 因 
为 值 为 至 而 不 被 返回 。 


二 次 扫描 由 于 包装 了 第 一 个 过 滤器 ， 则 所 有 包括 空 列 的 行 都 会 
eee: FAAP ay AMAY we ch Be Se ay GE, 即 最 初创 建 的 5 
列 。 最 后 扫描 中 输出 的 KeyValue 总 数 说 明了 SkipFilter 和 饰 掉 的 数 
MEZ o 


2. 全 匹配 过 滤器 (whileMatchFilter ) 
二 个 附加 过 滤器 与 之 前 的 附加 过 滤器 相似 ， 不 过 当 一 条 数据 被 
它 就 会 直接 放弃 这 次 扫描 操作 。 它 使 用 其 封装 SEM 


检查 KeyValue ， 并 确认 是 否 有 一 行 数据 因为 行 键 或 是 列 被 跳 过 而 过 
io © 


例 4.13 与 之 前 的 例子 稍 有 不 同 ， 它 使 用 了 不 同 的 过 滤 右 来 展示 附加 
类 的 功能 。 


例 4.13 ”基于 另 一 个 过 滤器 输出 的 结果 使 用 过 滤器 来 跳 过 整 行 结果 


Filter filter1 = new RowFilter(CompareFilter.CompareOp.NOT_EQUAL, 


new BinaryComparator (Bytes. toBytes("row-05"))); 


Scan scan = new Scan(); 
scan.setFilter(filter1); 
ResultScanner Scanner1 = table.getScanner(scan); 
for(Result result : scanner1){ 
for(KeyValue kv : result.raw()){ 
System.out.printin("KVv: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 


scanner1.close(); 


Filter filter2 = new WhileMatchFilter(filter1 
); 


scan.setFilter(filter2); 
ResultScanner scanner2 = table.getScanner(scan); 
for(Result result : scanner2){ 
for(KeyValue kv : result.raw()){ 
System.out.printin("KVv: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 
} 


} 


scanner2.close(); 


运行 示例 代码 ， 可 以 在 控制 台 得 到 如 下 输出 : 


Adding rows to table... 

Results of scan #1: 
row-01/colfami:col-00/0/Put/vlen=9, Value: 
row-02/colfami:col-00/0/Put/vlen=9, Value: 
row-03/colfami:col-00/0/Put/vlen=9, Value: 
row-04/colfami:col-00/0/Put/vlen=9, Value: 
row-06/colfami:col-00/0/Put/vlen=9, Value: 
row-07/colfami:col-00/0/Put/vlen=9, Value: 
row-08/colfami:col-00/0/Put/vlen=9, Value: 
row-09/colfami:col-00/0/Put/vlen=9, Value: 
row-10/colfami:col-00/0/Put/vlen=9, Value: 

Total KeyValue count for scan #1: 9 

Results of scan #2: 

KV: row-01/colfam1:col-00/0/Put/vlen=9, Value: 

KV: row-02/colfam1:col-00/0/Put/vlen=9, Value: 

KV: row-03/colfam1:col-00/0/Put/vlen=9, Value: 

KV: row-04/colfam1:col-00/0/Put/vlen=9, Value: 

Total KeyValue count for scan #2: 4 


第 一 个 扫描 使 用 RowFilter 跳 过 十 行 T= 其 余 都 被 返回 到 
了 客户 端 。 第 二 个 扫描 使 用 了 全 匹配 过 滤器 i 
) ， 在 遇 到 行 row-05 后 结束 了 整个 扫描 过 程 。 


a 
a a 
一 一 附加 过 滤器 与 其 他 过 滤器 都 实现 了 Filter 接口 。 
这 样 可 以 把 自身 的 功能 与 其 他 过 滤器 加 以 组 合 ， 以 变 成 一 个 


有 新 功能 的 过 滤 硕 。 


4.1.5 FilterList 


到 目前 为 止 ， 我 们 已 经 癌 用 户 展示 了 包 冯 过 的 或 没有 包 帮 过 的 过 
滤器 ， 以 及 如 何 通过 某 种 维度 〈 行 、 列 、 版 本 号 ) 使 用 过 滤器 来 对 表 
进行 筛选 。 实 际 应 用 中 ， 用 户 可 能 需要 多 个 过 滤器 共同 限制 返回 到 客 
户 端的 结果 ，FilterList (过 滤器 列表 ) 提供 了 这 项 功能 。 


ER 
EY 
一 下 与 其 他 单一 功能 过 滤器 一 样 ，FilterList 类 实 


现 了 Filter 接口 。 所 以 它 可 以 通过 组 合 多 个 过 滤 胡 的 功能 
来 实现 某 种 效 霖 ， 从 而 代 蕉 提供 这 类 效果 的 过 滤 融 。 


用 户 使 用 以 下 构造 器 创建 FilterList 实例 时 ， 需 要 提供 多 种 不 
同 的 参数 : 


FilterList(List< Filter> rowFilters) 
FilterList(Operator operator) 


FilterList(Operator operator,List< Filter> rowFilters 


参数 rowFilters 以 列表 的 形式 组 合 过 滤器 ， 人 参数 operator k 
定 了 组 合 它们 的 结果 。 表 4-3 提 供 了 一 些 可 选 的 操作 符 ， 默 认 值 是 MUST 
_PASS _ALL ， 当 用 户 不 需要 其 他 操作 符 时 可 以 在 构造 器 中 省 略 该 参 


表 4-3 FilterList.Operator 的 可 选 枚 举 值 


当 所 有 过 滤器 都 允许 包含 这 个 值 时 ， 这 个 值 才 会 被 包含 在 结果 


MUST BASS ALL | ons aye eee 、 
一 “一 | 也 就 是 说 没有 过 滤器 会 忽略 这 个 值 


sre | Fa ABIX MEMS BS EAA 


当 创建 FilterList 实例 之 后 ， 可 以 用 以 下 方法 添加 过 滤 硕 : 


void addFilter(Filter filter) 


每 个 FilterList 只 能 添加 一 个 操作 符 ， 但 用 户 可 以 随意 地 癌 已 
经 存在 的 FilterList 实例 中 添加 FilterList 实 例 ， 这 样 可 以 构造 
一 组 多 级 的 过 滤器 ， 同 时 它们 可 以 与 用 户 需 要 的 操作 符 进 行 组 合 。 

用 户 也 可 以 通过 控制 List 中 过 滤器 的 顺序 来 进一步 精确 地 控制 过 
滤器 的 执行 顺序 。 例 如 ， 使 用 ArrayList 可 以 保证 过 滤器 的 执行 顺序 
与 它们 添加 到 列表 中 的 顺序 一 至 > 具体 见 例 4.14。 


例 4.14 ”使 用 过 滤器 列表 组 合 单一 功能 的 过 滤器 


List< Filter> filters = new ArrayList< Filter>(); 


Filter filteri = new 

RowFilter(CompareFilter .CompareOp.GREATER_OR_EQUAL, 
new BinaryComparator(Bytes.toBytes("row-03"))); 

filters.add(filter1); 


Filter filter2 = new 

RowFilter(CompareFilter .CompareOp.LESS_OR_EQUAL, 
new BinaryComparator(Bytes.toBytes("row-06"))); 

filters.add(filter2); 


Filter filter3 = new QualifierFilter(CompareFilter .CompareOp.EQUAL, 
new RegexStringComparator("col-0[03]")); 
filters.add(filter3); 


FilterList filterList1 = new FilterList(filters); 


Scan scan = new Scan(); 
scan.setFilter(filterList1); 
ResultScanner scanneri = table.getScanner(scan); 
for(Result result : scanner1){ 

for(KeyValue kv : result.raw()){ 

System.out.printin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 

} 

} 


scanneri.close(); 


FilterList filterList2 = new FilterList( 
FilterList.Operator.MUST_PASS_ONE, filters); 


scan.setFilter(filterList2) ; 
ResultScanner scanner2 = table.getScanner(scan); 
for(Result result : scanner2){ 
for(KeyValue kv : result.raw()){ 
System.out.printin("KV: " + kv + ",Value: " + 
Bytes. toString(kv.getValue())); 


} 


scanner2.close(); 
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相反 ， 第 二 个 扫描 结 东 中 包含 了 所 有 的 行 和 列 。 这 走 因 为 


FilterList 操作 符 是 MUST_PASS_ONE ， 只 要 数据 通过 了 一 个 过 滤 
侣 的 过 小 就 会 被 返回 ， 再 出走 于 所 有 的 行 表 至 少 符合 一 个 过 小 尖 的 要 
求 ， 所 以 所 有 行 都 被 返 


4.1.6” 自 定义 过 滤器 


最 后 ， 用 户 可 能 需要 按 各 自 的 需求 实现 自 定义 过 滤器 。 用 户 可 以 
实现 Filter 接口 或 者 直接 继承 FilterBase 类 ， 后 者 已 经 为 接口 中 
所 有 成 员 方法 提供 了 默认 实现 。 


Filter 接口 的 结构 如 下 : 
public interface Filter extends Writable { 


public enum ReturnCode { 
INCLUDE, SKIP, NEXT_COL, NEXT_ROW, SEEK_NEXT_USING_HINT 


public void reset() 
public boolean filterRowKey(byte[] buffer,int offset,int length) 


public boolean filterAllRemaining() 

public ReturnCode filterKeyValue(KeyValue v) 
public void filterRow(List< KeyValue> kvs) 

public boolean hasFilterRow( ) 

public boolean filterRow() 

public KeyValue getNextKeyHint(KeyValue currentKV) 


接口 中 有 一 个 公有 的 枚 举 类 型 ， 叫 做 Returncode ， 它 被 
filterKeyValue() 方法 用 于 通知 执行 框架 ， 进 而 决定 如 何 进 行 下 一 
步 的 工作 。 过 滤器 可 以 跳 过 一 个 值 、 一 列 的 剩余 部 分 或 一 行 的 剩余 部 
分 ， 而 不 用 遍历 所 有 数据 。 因 此 获取 数据 的 效率 会 大 大 提升 。 


ce 上 
”服务 器 端 可 能 还 是 需要 饥 历 整 行 数据 来 查找 匹配 数 
据 ， 不 过 使 用 filterKeyValue( ) 提供 的 返回 值 优化 后 还 
是 可 以 减少 许多 工作 量 。 


表 4-4 展 示 了 所 有 的 取 值 以 及 每 个 值 对 应 的 含义 。 


表 4-4 Filter.ReturnCode 的 值 类 型 


在 结果 中 包括 这 个 keyvalue 实例 
跳 过 这 个 keyvalue 实例 并 继续 处 理 接 下 来 的 了 


y oo 而 的 列 。 例如 ， TimestampsFilter 使 用 


voct poy | 与 上 面 的 行为 相似 ， 跳 过 当前 行 并 继续 处 理 下 一 行 。 例 如 ，RowFilter 
~ RON | 使 用 了 这 个 返回 什 


一 些 过 滤器 需要 跳 过 一 系列 的 值 ， 此 时 需要 使 用 这 个 返回 值 通知 执行 
框架 使 djgetNextKeyHint() 来 决定 跳 到 什么 位 置 2 例如 ， 


ColumnPrefixFilter 使 4 J 这 个 功能 


上 面 的 大 多 数 方法 都 在 客户 端 获 取 检 索 操作 〈 如 扫描 操作 ) 的 不 
同 阶段 时 被 调用 。 调 整 调 用 次 序 ， 用 户 可 以 以 如 下 的 预期 顺序 执行 。 


filterRowKey(byte[] buffer, int offset, int length) 


本 方法 使 用 Filter 的 实现 方法 检查 行 键 ， 用 户 可 以 跳 过 整 行 数据 
以 避免 之 后 的 处 理 。RowFilter 使 用 这 个 方法 来 俑 选 符合 条 件 的 行 并 
退回 给 客户 端 。 


filterKeyValue(KeyValue v) 


如 果 本 行 数据 没有 被 之 前 的 方法 过 滤 掉 ， 那 么 执行 框架 会 调用 这 
个 方法 检查 这 一 行 中 每 个 KeyValue 实例 。 同 时 按照 ReturnCode 处 
理 当 前 值 。 


filterRow(List< KeyValue> kvs) 


一 旦 所 有 行 和 列 经 过 之 前 两 个 方法 的 检查 之 后 ， 这 个 方法 束 会 被 
调用 。 本 方法 让 用 户 可 以 访问 之 前 两 个 方法 筛选 出 来 的 KeyValue 实 
例 。DependentColumnFilter 过 滤器 使 用 这 个 方法 来 过 滤 与 参考 列 
不 匹配 的 数据 。 


filterRow() 


以 上 所 有 方法 调用 完成 之 后 ，filterRow( ) 方法 会 被 执行 。 
PageFilter 使 用 当前 方法 来 检查 在 一 次 迭代 分 页 中 返回 的 行 数 是 否 
达到 预期 的 页 大 小 ， 如 果 达 到 页 大 小 则 返回 true 。 上 默认 返回 值 是 
false ， 此 时 结果 中 包含 当前 行 。 


reset() 
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filterAllRemaining() 


当 这 个 方法 返回 true 时 ， 可 以 用 于 结束 整个 扫 拉 操作。 用 户 使 用 
这 个 方法 被 过 滤器 用 于 提供 上 述 的 优化 一 一 提前 结束 。 在 一 个 过 滤 
中 ， 如 采 这 个 方法 返回 false ， 扫 描 操 作 会 继续 执行 ， 同 时 前 面 介 绍 
的 方法 会 修 再 次 调用 。 显 然 ， 这 个 方法 对 get 操作 也 没有 用 。 


filterRow() 和 批量 处 理 模 式 


一 个 过 滤器 使 用 filterRow( ) 过 滤 行 或 使 用 
filterRow(List) 修改 返回 结果 列表 时 ， 必 需 重 载 
hasRowFilter() 方法 让 其 返回 true 。 


框架 使 用 这 个 标志 位 来 保证 过 滤器 与 扫描 操作 的 各 个 
参数 兼容 。 符 别 是 当 这 些 过 滤 右 与 扫 摘 的 批量 处 理 模 式 剖 
突 时 : 当 扫 摘 使 用 批量 处 理 模 式 传送 数据 时 ， 之 前 介绍 的 
方法 不 会 在 每 次 批量 操作 时 调用 ， 而 是 在 当前 行 数据 结 
时 被 调用 。 


图 4-2 展 示 了 处 理 一 行 数据 有 时， 过 滤 絮 中 各 方法 的 逻辑 流程 。 还 有 
一 些 更 细 化 的 流程 是 天 于 过 滤 右 如 何在 列 级 别 中 起 作用 的 ， 但 这 些 内 
容 并 没有 被 包含 到 这 张 图 中 。 


RegionScanner.next(limit) 


filterKeyValue() 


nextRow() — Filter.reset() 
& Clear KeyValue List 


limit reached? io 


No 
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= 
va 


-i filterAllRemaining( = 


return FALSE 


图 4-2 ”过 滤器 处 理 一 行 数据 的 逻辑 流程 


例 4.15 基 于 FilterBase 提供 的 方法 实现 了 一 个 目 定 义 过 滤 帮 ， 
并 重 载 7 需要 修改 的 方法 。 过 滤器 首先 假设 所 有 行 都 要 被 过 滤 掉 ， 也 


K 


就 是 说 ， 所 有 行 都 不 在 结果 中 返回 。 只 有 当 有 任意 一 列 中 的 值 与 设 定 
值 相等 时 ， 这 一 行 才 会 被 返回 到 客户 端 。 


例 4.15 ”实现 一 个 只 让 一 些 特定 行 通过 的 过 滤器 


public class CustomFilter extends FilterBase{ 


private byte[] value = null; 
private boolean filterRow = true; 


public CustomFilter() { 
super(); 


public CustomFilter(byte[] value) { 
this.value = value;@ 


} 


@Override 
public void reset() { 
this.filterRow = true;@ 


} 


@Override 
public ReturnCode filterKeyValue(KeyValue kv) { 
if (Bytes.compareTo(value, kv.getValue())== 0){ 
filterRow = false;® 
} 
return ReturnCode. INCLUDE; @ 


} 


@Override 
public boolean filterRow() { 
return filterRow;® 


} 


@Override 
public void write(DataOutput dataOutput)throws IOException { 
Bytes.writeByteArray(dataOutput, this.value);@ 


} 


@Override 
public void readFields(DataInput dataInput)throws IOException { 
this.value = Bytes.readByteArray(dataInput);@ 


} 


@ 设 置 要 比较 的 值 。 

@ 每 当 有 新 行 时 重 置 过 滤器 的 标志 位 。 

@ 当 有 值 匹配 设 定 值 时 ， 让 这 一 行 通过 过 滤 。 
Oh ee Aa KeyValue 实例 ， 直 到 filterRow( ) 决定 是 否 过 小 
@ 这 是 实际 上 决定 数据 是 否 被 返回 的 一 行 代码 ， 其 基于 标志 位 判 
@ 把 设 定 值 写 到 Data0utput 中 ， 服 务 器 端 实例 化 过 滤器 时 可 以 


读 到 设 定 值 。 


@ 服 务 痕 使 用 这 个 方法 来 初始 化 过 滤 需 实例 ， 所 以 客户 端的 设 定 
值 可 以 被 读 到 。 


用 户 目 定义 过 滤器 部 署 


一 旦 用 户 完 成 过 滤器 的 编写 就 需要 将 其 部 署 到 HBase 
上 。 用 户 首 先 需要 编译 好 这 个 类 ， 同 时 打 成 JAR 包 ， 并 保 
证 可 以 被 region 服 务 器 调用 。 


用 户 可 以 使 用 编译 系统 来 准备 配置 用 的 JAR 文 件 ， 同 
时 使 用 配置 管理 系统 把 文件 分 发 到 每 个 region 服 务 夯 中 。 
文件 分 发 完成 后 用 户 需 要 修改 hbase-env.sh 文件 ， 如 下 : 


# Extra Java CLASSPATH elements. Optional. 


# export HBASE_CLASSPATH= 
export HBASE_CLASSPATH="/hbase-book/ch04/target/hbase-book-ch04- 
1.0.jar" 


T a 中 编译 出 JAR 文 件 。 因 为 在 
单机 模式 下 安装 ， 所 以 这 里 使 用 绝对 路 径 ， 也 就 是 说 开发 
See EI CEE o 


注意 用 户 需 要 重启 HBase 的 守护 进程 ， 才 外 cea 
pee ae AE TAEZ Ja AY CAM oe a HT Be 


例 4.16 使 用 了 新 的 用 户 自 定义 过 滤器 来 查找 包含 特定 值 的 行 ， 同 时 
还 使 用 了 FilterList 。 


例 4.16 ”使 用 用 户 自 定义 过 滤器 


List< Filter> filters = new ArrayList< Filter>(); 


Filter filter1 = new CustomFilter(Bytes.toBytes("val-05.05")); 
filters.add(filter1); 


Filter filter2 = new CustomFilter(Bytes.toBytes("val-02.07")); 
filters.add(filter2); 


Filter filter3 = new CustomFilter(Bytes.toBytes("val-09.00")); 
filters.add(filter3); 


FilterList filterList = new FilterList( 
FilterList.Operator.MUST_PASS_ONE, filters); 


Scan scan = new Scan(); 
scan.setFilter(filterList); 
ResultScanner scanner = table.getScanner(scan); 
for(Result result : scanner) { 
for(KeyValue kv : result.raw()){ 
System.out.printlin("KV: " + kv + ",Value: " + 


} 


} 


Bytes.toString(kv.getValue())); 


scanner .close(); 


使 用 以 上 例子 


Results of scan: 


row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-02/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-05/colfam1: 
row-09/colfam1: 
row-09/colfam1: 
row-09/colfam1: 
:co1-03/1301507323199/Put/vlen=9, Value: 
row-09/colfam1: 
row-09/colfam1: 
row-09/colfam1: 
row-09/colfam1: 
row-09/colfam1: 
row-09/colfam1: 


row-09/colfam1 


应 当 会 有 如 下 输出 : 


Adding rows to table... 


col-00/1301507323088/Put/vlen=9, Value: 
col-01/1301507323090/Put/vlen=9, Value: 
col-02/1301507323092/Put/vlen=9, Value: 
col-03/1301507323093/Put/vlen=9, Value: 
col-04/1301507323096/Put/vlen=9, Value: 
col-05/1301507323104/Put/vlen=9, Value: 
col-06/1301507323108/Put/vlen=9, Value: 
col-07/1301507323110/Put/vlen=9, Value: 
col-08/1301507323112/Put/vlen=9, Value: 
col-09/1301507323113/Put/vlen=9, Value: 
col-00/1301507323148/Put/vlen=9, Value: 
col-01/1301507323150/Put/vlen=9, Value: 
col-02/1301507323152/Put/vlen=9, Value: 
col-03/1301507323153/Put/vlen=9, Value: 
col-04/1301507323154/Put/vlen=9, Value: 
col-05/1301507323155/Put/vlen=9, Value: 
col-06/1301507323157/Put/vlen=9, Value: 
col-07/1301507323158/Put/vlen=9, Value: 
col-08/1301507323158/Put/vlen=9, Value: 
col-09/1301507323159/Put/vlen=9, Value: 
col-00/1301507323192/Put/vlen=9, Value: 
col-01/1301507323194/Put/vlen=9, Value: 
col-02/1301507323196/Put/vlen=9, Value: 


col-04/1301507323201/Put/vlen=9, Value: 
col-05/1301507323202/Put/vlen=9, Value: 
col-06/1301507323203/Put/vlen=9, Value: 
col-07/1301507323204/Put/vlen=9, Value: 
col-08/1301507323205/Put/vlen=9, Value: 
col-09/1301507323206/Put/vlen=9, Value: 


与 预期 的 一 样 ， 一 行 中 有 一 列 的 值 与 预定 值 匹配 时 ， 这 一 行 数据 
Maer eH ER P ° 


4.1.7 “过 滤器 总 结 


表 4-5 展 示 了 默认 提供 的 过 滤 絮 中 的 一 些 属性 和 兼容 性 。 标 注 V 说 明 
属性 可 用 ， 标 注 x 表示 属性 缺失 。 


R45 ”过 滤器 属性 和 它们 之 间 的 兼容 性 
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TimestampsFilter 


ColumnCountGetFilter 


ColumnPaginationFilter 


ColumnPrefixFilter 


RandomRowFilter 


SkipFilter 


WhileMatchFilter 


FilterList 
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以 支持 Scan .setBatch( ) 方法 ， 也 就 是 说 可 以 支持 扫描 的 批量 模式 。 


a. 过 滤器 可 了 
b. 过 滤器 可 以 被 SkipFilter 类 包装。 


c， 过 滤器 可 以 被 WhileMatchFilter 类 包装 。 


d. 过 滤器 可 以 被 合并 到 FilterList 类 中 。 


e， 过 滤器 为 了 


oo 


万 化 性 能 可 以 在 发 现 没 有 符合 条 件 的 行 之 后 提前 停止 扫描 操作 。 
f， 过 滤器 可 以 在 Get 实例 中 发 挥 作用 


o 


g， 过 滤器 可 以 在 Scan 实例 中 发 挥 作用 


h. 依赖 于 被 包含 的 过 滤器 。 


4.2 ”计数 器 


除了 以 上 讨论 的 功能 之 外 ，HBase 还 有 一 个 高 级 功能 : 计数 器 
(counter) 。 许 多 收集 统计 信息 的 应 用 有 点 击 流 或 在 线 广告 意见 ， 这 
些 应 用 需要 被 收集 到 日 志文 件 中 用 于 后 续 的 分 析 。 用 户 可 以 使 用 计数 
妖 做 实时 统计 ， 从 而 放弃 延 时 较 高 的 批量 处 理 操 作 。 


4.2.1 ”计数 器 简介 


与 之 前 介绍 的 原子 操作 检查 并 修改 (check-and-modify) 一 样 ， 
HBase 也 有 一 种 机 制 可 以 将 列 当 作 计 数 器 。 否 则 ， 如 果 用 户 需 要 对 一 行 
数据 加 锁 ， 然 后 读 取 数据 ， 再 对 当前 数据 做 加 法 ， 最 后 写 回 HBase 并 释 
放 该 行 锁 ， 从 而 其 他 写 程 序 可 以 访问 该 行 数据 。 这 样 做 会 引起 大 量 的 
资源 范 争 问题 ， 尤 其 是 当 客户 端 进 程 骨 潢 之 后 ， 尚 未 释放 的 锁 需 要 等 
行 超时 恢复 一 一 这 会 在 一 个 高 负载 的 系统 中 引起 灾难 性 的 后 果 。 

客户 端 API 提 供 了 专门 的 方法 来 完成 这 种 读 取 并 修改 (read-and- 
modify) 操作 ， 同 时 在 单独 一 次 客户 端的 调用 过 程 中 保证 原子 性 。 早 
期 的 HBase 版 本 只 会 在 每 次 计数 器 更 新 操作 中 使 用 一 个 RPC 请 求 ， 不 过 
新 版 本 的 HBase 中 CRUD 操 作 (参考 阅读 3.2 闻 ) 开始 使 用 与 此 相同 的 机 
制 ， 证 许多 更 狐 计 数 露 的 请 求 都 可 以 在 一 次 RPC 中 完成 。 


一 人 虽然 用 户 可 以 一 次 更 新 多 个 计数 器 ， 但 它们 都 必须 
属于 同一 行 。 更 新 多 行 的 计数 器 需要 通过 独立 的 API 调 用 ， 
即 多 个 RPC 请 求 。batch( ) 方法 调用 目前 并 不 支持 
Increment 实例 ， 不 过 这 种 情况 今后 可 能 会 改变 。 


用 户 分 别 了 解 每 个 类 型 之 前 ， 还 需要 了 解 一 些 计数 器 在 列 一 级 的 
工作 细 记 。 以 下 是 用 Shell 创 建 表 之 后 ， 两 次 增加 同一 个 计数 器 的 值 ， 
最 后 查询 计数 器 当前 值 的 例子 。 


hbase(main):001:0> create 'counters', 'daily', 'weekly', 'monthly' 


0 row(s)in 1.1930 seconds 


hbase(main):002:0> incr 'counters', '20110101', 'daily:hits',1 


COUNTER VALUE = 1 


hbase(main):003:0> incr 'counters', '20110101', 'daily:hits',1 


COUNTER VALUE = 2 


hbase(main):04:0> get_counter 'counters', '20110101', 'daily:hits' 


COUNTER VALUE = 2 
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_counter， 并 显示 当前 计数 器 值 与 所 预期 的 一 致 。 
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终端 的 incr 命令 格式 如 下 : 


incr '< table>','< row>','< column>',[< increment -value>] 


初始 化 计数 器 


用 户 不 用 初始 化 计数 器 ， 当 用 户 第 一 次 使 用 计数 需 
时 ， 计 数 器 将 被 自动 设 为 0， 也 就 是 说 当 用 户 创建 一 个 新 
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定 的 值 。 用 户 也 可 以 直接 读 写 一 个 计数 器 ， 不 过 需要 使 用 
以 下 方法 来 解码 : 


Bytes.toLong() 


并 使 用 以 下 方法 来 编码 : 


Bytes.toBytes(1long) 


特别 是 对 于 后 一 种 情况 ， 需 要 保证 参数 是 长 整 型 的 
(long) 。 用 户 也 可 以 直接 将 变量 或 数字 类 型 转换 为 长 
整 型 ， 如 下 所 示 : 


byte[] b1 = Bytes.toBytes(1L) 
byte[] b2 = Bytes.toBytes((long)var) 


如 果 用 户 使 用 put 方法 错误 地 初始 化 了 一 个 计数 器 
但 于 用 记名 能 会 经 历 如 下 过程 : 


hbase(main):001:0> put 'counters', '20110101', 'daily:clicks','1' 


© row(s)in 0.0540 seconds 


当 用 户 增加 这 个 计数 器 的 值 时 会 得 到 如 下 结 


hbase(main):013:0> incr 'counters', '20110101', 'daily:clicks',1 


COUNTER VALUE = 3530822107858468865 


这 个 结果 不 是 预期 中 的 2! 这 是 因为 put 方法 按 错误 
的 格式 存储 了 计数 紫 ， 值 是 字符 1， 同 时 这 个 值 是 一 个 字 
方 ， 并 不 是 表示 Java 语 言 中 长 度 为 8 的 long RAS T 
数组 


注意 : 这 一 个 字 节 被 Shell 当 做 字 节 数组 存储 时 ， 最 高 
位 被 设 为 ASCII 码 的 字母 1 的 值 49， 这 是 基于 Ruby 的 Shell 脚 
本 接收 到 的 用 户 输入 值 。 增 加 这 个 值 的 最 低位 字 节 同时 将 
其 转化 为 long 类 型 ， 就 会 得 到 非常 大 并 且 难 以 预期 的 数 
值 ， 如 前 面 代码 中 的 COUNT VALUE 所 示 : 


hbase(main):001:0> include_class org.apache.hadoop.hbase.util.Bytes 


=> Java: :OrgApacheHadoopHbaseuUtil: :Bytes 
hbase(main):002:0> Bytes: :toLong([49,0,0,0,0,0,0,1].to_java :byte) 


=> 3530822107858468865 


用 户 可 以 使 用 get mkv Sires, ZAR FP: 
hbase(main):005:0> get 'counters', '20110101' 


COLUMN CELL 

daily:hits 
timestamp=1301570823471, value=\x00\x00\x00\x00\x0O\xOO\xOO0\x02 
1 row(s)in 0.0600 seconds 


这 样 得 到 的 结果 可 读 性 较 差 ， 但 是 这 表明 了 一 个 计数 器 就 是 一 个 
与 其 他 列 类 似 的 简单 列 。 用 户 也 可 以 指定 一 个 更 大 的 递增 值 : 


hbase(main):006:0> incr 'counters', 


'20110101', 'daily:hits', 20 


COUNTER VALUE = 22 
hbase(main):007:0> get 'counters', '20110101' 
COLUMN CELL 
daily:hits 
timestamp=1301574412848, value=\x00\x00\x00\x00\x0O\xOO\xO0\x16 


1 row(s)in 0.0400 seconds 


hbase(main):008:0> get_counter 'counters', 


'20110101', 'daily:hits' 


COUNTER VALUE = 22 


用 户 直 接 读 取 计 数 器 时 得 到 的 是 字 节 数组 ，Shell 把 每 个 字 市 按 十 
六 进 制 数 打印 。 使 用 get _counter 可 以 以 可 读 格 式 返 回 数 据 ， 并 确 
认 递 增 数 据 可 行 ， 并 且 与 预期 一 致 。 


最 后 ， 用 户 不 只 可 以 用 incr 命令 来 对 一 个 计数 如 加 值 ， 也 可 以 取 
回 计 数 右 当前 值 或 者 减少 当前 值 。 实 际 上 ， 用 户 也 可 以 完全 忽略 初始 
值 ， 默认 情况 下 是 1。 


hbase(main):004:0> incr 'counters', '20110101', 


"daily:hits' 


COUNTER VALUE = 3 


hbase(main):005:0> incr 'counters', '20110101', 'daily:hits' 


COUNTER VALUE = 4 


hbase(main):006:0> incr 'counters', '20110101', 'daily:hits',0 


COUNTER VALUE = 4 


hbase(main):007:0> incr 'counters', '20110101', 'daily:hits', -1 


COUNTER VALUE = 3 


hbase(main):008:0> incr 'counters', '20110101', 'daily:hits', -1 


COUNTER VALUE = 2 


使 用 增加 值 ， 即 incr 命令 的 最 后 一 个 参数 ， 用 户 可 以 在 表 4-6 中 
观察 不 同 值 融 来 的 行为 影响 。 


4-6 ”增加 值 和 对 计数 器 产生 的 作用 


显然 ， 使 用 incr 命令 只 能 一 次 操作 一 个 计数 器 。 用 户 也 可 以 使 用 
后 面 介绍 的 客户 端 API 操 作 计数 器 。 


4.2.2” 单 计数 器 


第 一 种 增加 操作 只 能 操作 一 个 计数 器 : 用 户 需 要 自己 设 定 列 ， X 
法 由 HTable 提供 ， 如 下 所 示 : 


long incrementColumnValue(byte[] row,byte[] family, byte[ ] 
qualifier, 

long amount) throws IOException 
long incrementColumnValue(byte[] row,byte[] family, byte[ ] 


qualifier, 
long amount, boolean writeToWAL) throws IOException 


这 两 种 方法 都 需要 提供 列 的 坐标 (coordinates) 和 增加 值 ， 除 此 之 
外 这 两 种 方法 只 在 参数 writeToWAL 上 有 差别 ， 这 个 参数 的 作用 与 
Put.setWriteTowAL() 方法 一 致 。 

忽略 该 参数 会 直接 使 用 默认 值 true ， 也 就 是 说 ，WAL 是 有 效 的 。 

抛 开 这 个 参数 ， 用 户 可 以 按照 下 面 的 示例 轻松 地 使 用 这 些 方法 。 


例 4.17 使 用 单 计数 器 自 增 方法 


HTable table = new HTable(conf,"counters"); 


long cnt1 = table.incrementColumnValue(Bytes.toBytes("20110101"),@ 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),1); 

long cnt2 = table.incrementColumnValue(Bytes.toBytes("20110101"),@ 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),1); 


long current = 
table.incrementColumnValue(Bytes.toBytes("20110101"), © 
Bytes.toBytes("daily"),Bytes.toBytes("hits"),0); 


long cnt3 = table.incrementColumnValue(Bytes.toBytes("20110101"),@ 
Bytes.toBytes ("daily") , Bytes.toBytes ("hits") , -1) ; 


@ 计 数 器 值 加 1 。 
@ 第 二 次 给 计数 器 值 加 1 。 

和 @ 得 到 计数 器 当前 值 ， 不 做 自 增 操作 。 
@ 计 数 器 值 减 1 。 

对 应 的 输出 如 下 ; 


cnt1: 1,cnt2: 2,current: 2,cnt3: 1 


与 之 前 使 用 的 Shell 命 令 一 样 ，API 调 用 也 有 相同 的 作用 : 使 用 正 值 
时 增加 了 计数 器 的 值 ， 使 用 0 时 可 以 得 到 当前 计数 器 的 值 ， 使 用 负 值 时 
可 以 减少 当前 计数 器 的 值 。 
4.2.3 ”多 计数 器 


男 一 个 增加 计数 器 值 的 途径 是 HTable( ) 的 方法 increment () 
© 工作 模式 与 CRUD 操 作 类 似 ， 请 使 用 以 下 方法 完成 该 功能 : 


Result increment(Increment increment) throws IOException 


用 户 需 要 创建 一 个 Increment 实例 ， 同 时 需要 填充 一 些 相 应 的 细 
节 到 该 实例 中 ， 例 如 ， 计 数 器 的 坐标 。 构 造 器 如 下 : 


Increment() {} 
Increment(byte[] row) 


Increment(byte[] row, RowLock rowLock) 


用 户 构 造 Increment 实例 时 需要 传 入 行 键 ， 此 行 应 当 包含 此 实例 
需要 通过 increment( ) 方法 修改 的 所 有 计数 器 。 


可 选 参数 rowLock 设置 了 用 户 目 定义 锁 实 例 ， 这 样 可 以 使 本 次 操 
作 完 全 在 用 户 的 控制 下 完成 ， 例 如 ， 当 用 户 需要 多 次 修改 同一 行 时 ， 
可 以 保证 其 间 此 行 不 被 其 他 写 程序 修改 。 


| 

a E E E E 
用 户 无 法 限制 读 操作 。 事 实 上 ， 这 里 并 没有 保证 读 操作 的 原 
子 性 。 


因为 读 操 作 不 需要 获取 锁 ， 所 以 它 可 能 读 到 一 行 中 被 修 
改 到 一 半 的 数据 ! scan 和 get 操 作 同 样 会 出 现 这 种 情况 。 


一 旦 用 户 使 用 行 键 创建 了 一 个 Increment 实例 ， 就 需要 向 其 中 加 
入 实际 的 计数 器 ， 也 就 是 说 ， 用 户 需 要 增加 列 ， 使 用 方法 如 下 : 


Increment addColumn(byte[] family,byte[] qualifier,long amount) 


与 Put FEDERAT eA eR AS BY ER: SS 
加 操作 时 ， 版 本 都 被 隐 陈 处 理 了 。 同 样 ， 这 里 没有 addFamily() 7 
法 ， 因 为 计数 器 都 是 特定 的 列 ， 所 以 需要 特定 如 此 ， 因 此 去 添加 一 个 
列 族 是 没有 意义 的 。 


Increment 类 的 特别 功能 是 可 以 添加 一 个 时 间 范 围 : 


Increment setTimeRange(long minStamp, long maxStamp) 
throws IOException 


CRE TT Bae ATEN IH] yE E SS ZH He Bl AY ARAN Ba AH bE ay 
TE o FRY TA] ye Fel das BU AR SS ae PR ih ALAA get 操作 来 取得 当前 这 些 
计数 器 的 值 。 用 户 可 以 使 用 它 来 使 计数 器 过 期 〈expire) ， 例 如 ， 用 时 
间 划 分 一 行 的 计数 器 用 户 限 制 时间 范 围 ， 可 以 用 来 屏蔽 比较 老 的 计 
数 郁 ， 使 它们 看 上 去 不 存在 。 一 次 增加 操作 会 认为 这 此 较 老 的 计数 天 
不 存在 ， 并 把 它们 重 置 为 1。 


Increment 类 提供 的 其 他 方法 见 表 4-7。 


表 4-7 Increment 类 的 附加 方法 概览 


a 


j Eifel %£ Increment 实例 时 指定 的 行 键 值 


返回 构造 器 中 可 选 参数 rowLock 的 锁 ID， 如 果 没 有 设 
有 置 的 话 ， 默 认 该 值 为 -1L 
SRC EE NEE PO: 


返回 与 Increment KAHRA AV, P 
setTimeStamp() 方法 进行 设 定 


getTimeRange() 


nunan ne? 便捷 地 取 回 FamilyMap 的 大 小 ， 其 中 包括 添加 的 所 有 列 
H 的 列 族 


petso RTE 
今 查 是 否 有 列 或 列 族 被 添加 到 这 个 Increment 实例 


可 以 访问 addcolumn( ) 方法 添加 的 列 。 
Taiye ec an pO rami yma 的 键 存储 的 是 列 族 名 称 ， 相 应 的 值 是 添加 过 
y E ZSE 的 列 族 下 列 的 列表 。 familySet() 方法 返回 一 个 列 族 的 

set 实例 ， 换 名 话说 束 是 一 个 只 包括 列 族 名 的 集合 


与 上 面 命令 行 的 例子 相似 ， 例 4.18 使 用 了 多 个 增加 值 来 增加 、 获 取 
或 减少 一 个 计数 器 的 值 。 


例 4.18 ”增加 一 行 中 多 个 计数 器 的 计数 


Increment increment1 = new Increment(Bytes.toBytes("20110101") ); 


increment1i.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("clicks") 
人 
AEE NE ee vn 
Sherenéntsaddcoluan( Bytes. toBytes ("weekly"), Bytes. toBytes("hits"), 
10); 


Result result1 = table.increment(increment1);@ 


for (KeyValue kv : resulti.raw()){ 
System.out.printin("Kv: " + kv + 
" Value: " + Bytes.toLong(kv.getValue()));® 
} 


Increment increment2 = new Increment(Bytes.toBytes("20110101")); 


increment2.addColumn(Bytes.toBytes("daily"),Bytes.toBytes("clicks") 
ea a ty bytes conv eee: 
re a E E 
Sherenent2addcoluan( Bytes. toBytes ("weekly"), Bytes toBytes( hits"), 
-5); 


Result result2 = table.increment(increment2) ; 


for(KeyValue kv : result2.raw()){ 
System.out.println("KV: " + kv + 
"Value: " + Bytes.toLong(kv.getValue())); 


@ 使 用 不 同 的 增加 值 增加 计数 器 的 计数 。 


. Oe FA mH eae ET EL Val H SEPA A, He BR e 


@ 打 印 KeyVaule 和 返回 的 计数 器 计数 结果 © 
@ 使 用 正 、 负 和 零 增 加 值 来 修改 计数 器 值 。 


运行 上 面 例子 的 输出 如 下 : 


: 20110101/daily:clicks/1301948275827/Put/vlen=8 Value: 1 

: 20110101/daily:hits/1301948275827/Put/vlen=8 Value: 1 

: 20110101/weekly:clicks/1301948275827/Put/vlen=8 Value: 10 
: 20110101/weekly :hits/1301948275827/Put/vlen=8 Value: 10 


: 20110101/daily:clicks/1301948275829/Put/vlen=8 Value: 6 

: 20110101/daily:hits/1301948275829/Put/vlen=8 Value: 2 

: 20110101/weekly:clicks/1301948275829/Put/vlen=8 Value: 10 
: 20110101/weekly :hits/1301948275829/Put/vlen=8 Value: 5 


e 比较 两 次 得 到 的 结案 ， 用 户 可 以 发 现 达 到 的 效果 如 所 预料 的 一 


4.3 HRERS 


到 目前 为 止 ， 用 户 已 经 掌握 了 如 何 使 用 过 滤器 来 减少 服务 器 端 通 
过 网 络 返回 到 客户 端的 数据 量 。HBase 中 还 有 一 些 特性 让 用 户 甚 至 可 以 
把 一 部 分 计算 也 移动 到 数据 的 存放 端 : 协 处 理 器 (coprocessor) 


4.3.1 协 处 理 器 简介 


使 用 客户 端 API， 配 合 仿 选 机 制 ， 例 如 ， 使 用 过 滤 右 或 限制 列 族 的 
范 围 ， 都 可 以 控制 被 返回 到 客户 端的 数据 量 。 如 来 可 以 更 进一步 优化 
会 更 好 ， 例 如 ， 数 据 的 处 理 流程 直接 放 到 服务 器 端 执行 ， 然 后 仅 返 回 
一 个 小 的 处 理 结 采 集 。 这 类 似 于 一 个 小 型 的 MapReduce 框 如， 该 框架 将 
工作 分 发 到 整个 集群 。 


协 处 理 器 允许 用 户 在 region 服 务 器 上 运行 自己 的 代码 ， 更 准确 地 说 
是 允许 用 户 执行 region 级 的 操作 ， 并 且 可 以 使 用 与 RDBMS 中 触发 器 
(trigger) 类 似 的 功能 。 在 客户 端 ， 用 户 不 用 关心 操作 具体 在 哪里 执 
行 ，HBase 的 分 布 式 框架 会 帮助 用 户 把 这 些 工 作 变 得 透明 。 


这 里 用 户 可 以 监听 一 些 隐 式 的 事件 ， 并 利用 其 来 完成 一 些 辅 助 任 
务 。 如 果 这 些 还 不 够 ， 用 户 还 可 以 目 己 扩展 现 有 的 RPC 协 议 来 引入 目 
己 的 调用 ， 这 些 调用 由 客户 端 触 发 ， 并 在 服务 端 右 执行 。 


例如 ， 用 户 自 定义 过 滤器 (参考 4.1.6 节 ) ， 用 户 需 要 编写 一 些 特 
定 的 Java 类 来 实现 特定 接口 。 用 户 需要 将 其 编译 成 JAR 文 件 ， 并 使 服务 
器 端 可 以 加 载 。region 服 务 器 进程 会 实例 化 这 些 类 ， 并 在 正确 的 系统 环 
境 中 运行 。 与 过 滤器 不 同 的 是 ， 协 处 理 器 可 以 动态 加 载 。 这 一 点 可 以 
使 用 户 在 HBase 集 群 运行 中 扩展 其 功能 。 

有 很 多 可 以 使 用 协 处 理 器 的 场景 ， 例 如 ， 使 用 钩子 关联 行 修改 操 
作 来 维护 一 个 辅助 索引 ， 或 维护 一 些 数据 间 的 引用 完整 性 。 过 滤器 也 
可 以 被 增强 为 有 状态 的 ， 因 此 它们 可 以 做 一 些 跨 行 级 的 决策 。 如 
RDBMS 中 常见 的 sum( )、avg( ) 等 聚合 函数 ， 以 及 SQL 也 可 以 在 服务 
服务 器 端 只 需 在 本 地 扫 摘 并 统计 数据 ， 然 后 把 数值 结果 返 

给 客户 端 。 


一 人 另 一 个 适合 使 用 协 处 理 器 的 场景 是 权限 控制 。 
HBase 0.92 的 授权 认证 和 审查 功能 就 是 基于 协 处 理 器 完成 
的 。 它 们 在 系统 启动 时 被 加 载 ， 并 提供 与 触发 器 类 似 的 钩子 
画 数 来 检查 一 个 用 户 是 否 通过 了 认证 ， 以 及 是 否 有 权限 访问 
表 中 的 某 些 数据 。 


协 处 理 硕 框架 已 经 提供 了 一 些 类 ， 用 户 可 以 通过 继承 这 些 类 来 扩 
展 目 己 的 功能 。 这 些 类 主要 分 为 两 大 类 ， 即 observer 和 endpoint。 以 下 
是 各 个 有 功能 的 简要 介绍 。 
observer 

这 一 类 协 处 理 器 与 触发 器 (trigger) 类 似 : 回调 函数 〈 也 被 称 作 
PF EARL, hook) 在 一 些 特定 事件 发 生 时 被 执行 。 这 些 事件 包括 一 些 
用 户 产 生 的 事件 ， 也 包括 服务 器 端 内 部 上 自动 产生 的 事件 。 


协 处 理 囊 框 殿 提 供 的 接口 如 下 所 示 。 


e RegionObserver : 用 户 可 以 用 这 种 的 处 理 硕 处 理 数据 修改 事 
件 ， 它 们 与 表 的 region 联 系 紧密 。 

e MasterObserver: 可 以 被 用 作 管 理 或 DDL 类 型 的 操作 ， 这 些 是 
集群 级 事件 。 

e WALObserver : 提供 控制 WAL 的 钧 子 范 数 。 


observer 提 供 了 一 些 设计 好 的 回调 函数 ， 每 个 操作 在 集群 服务 硕 端 
都 可 以 被 调用 。 
endpoint 

除了 事件 处 理 之 外 还 需要 将 用 户 自 定义 操作 添加 到 服务 器 端 。 用 
户 代码 可 以 被 部 署 到 管理 数据 的 服务 需 端 ， 例 如 ， 做 一 些 服务 器 端 计 
算 的 工作 。 

endpoint 通 过 添加 一 些 远程 过 程 调 用 来 动态 扩展 RPC 协 议 。 可 以 把 
它们 理解 为 与 RDBMS 中 类 似 的 存储 过 程 。endpoint 可 以 与 observer 的 实 
现 组 合 起 来 直接 作用 于 服务 事端 的 状态 。 

这 些 接口 都 基于 Coprocessor 框架 的 接口 ， 以 获取 一 些 共 有 的 特 
性 ， 同 时 也 可 以 实现 自己 特有 的 功能 。 


最 后 ， 协 处 理 紫 可 以 个 链 接 起 来 使 用 ， 这 个 特点 与 Java Servlet API 
的 过 滤 右 请 求 相似 。 下 面 介绍 一 些 协 处 理 右 框架 中 可 用 的 类 型 。 


4.3.2 Coprocessor 类 


所 有 协 处 理 器 的 类 都 必须 实现 这 个 接口 。 它 定义 了 协 处 理 器 的 基 
本 约定 ， 并 使 得 框架 本 身 的 管理 变 得 容易 。 这 里 提供 了 两 个 被 应 用 于 
框架 的 枚 举 类 一 Priority 和 State 。 表 4-8 解 释 了 这 些 值 的 含义 。 


表 4-8 Coprocessor.Priority 枚 举 类 定义 的 优先 级 


局 优先 级 ， 定 义 最 先 被 执行 的 协 处 理 器 


定义 其 他 的 协 处 理 器 ， 按 顺序 执行 


协 处 理 器 的 优先 级 决定 了 执行 的 顺序 : 系统 (system) 级 协 处 理 
器 在 用 户 (user) 级 协 处 理 器 之 前 执行 。 


一 一 在 同一 个 优先 级 中 还 有 一 个 序号 (sequence 
number) 的 概念 ， 用 来 维护 协 处 理 器 的 加 载 顺 序 。 序 号 从 0 
开始 依次 增加 。 


这 个 数字 作用 并 不 大 ， 但 用 户 可 以 依靠 它们 来 为 同一 优 
先 级 的 协 处 理 需 排序 : 在 同一 优先 级 下 ， 它 们 按照 其 序号 递 
增 的 顺序 执行 ， 即 定义 了 执行 顺序 。 


在 协 处 理 右 的 生命 周期 中 ， 它 们 由 框架 管理 。Coprocessor 接口 
提供 了 如 下 两 个 方法 : 


void start(CoprocessorEnvironment env) throws IOException; 
void stop(CoprocessorEnvironment env) throws IOException; 


这 两 个 方法 在 协 处 理 器 开始 和 结束 时 被 调用 。 
CoprocessorEnvironment 用 来 在 协 处 理 硕 的 生命 周期 中 保持 其 状 
态 。 协 处 理 器 实例 一 直 被 保存 在 提供 的 环境 中 。 


表 4-9 列 举 了 它 提 供 的 方法 。 


表 4-9 CoprocessorEnvironment 类 提供 的 方法 


以 字符 串 的 格式 返回 HBase 版 本 


Coprocessor.Priority 
getPriority() 


返回 协 处 理 器 的 优先 级 


OR E 协 处 理 器 的 序号 ， 当 协 处 理 器 加 载 时 被 设置 ， 这 反 
映 了 它 的 执行 顺序 


HTableInterface 返回 与 传 入 的 表 名 参数 对 应 的 HTable 实例 ， 这 人 允许 
getTable(byte[] tableName) 协 处 理 器 访问 实际 的 表 数 据 


协 处 理 器 应 当 只 与 提供 给 它们 的 环境 进行 交互 。 这 样 的 好 处 是 可 
以 保证 没有 会 被 恶意 代码 用 来 破坏 数据 的 后 门 。 


p 
ww 上 
一 一 ” 协 处 理 器 应 当 使 用 getTable( ) 方法 访问 表 数 
据 。 注 意 这 个 方法 实际 上 在 默认 的 HTable 类 上 添加 了 特定 
的 安全 措施 。 例 如 ， 协 处 理 器 不 可 以 对 一 行 数据 加 锁 。 


目前 为 止 ， 还 没有 阻止 用 户 在 协 处 理 器 代码 中 创建 
HTable 实例 的 办 法 ， 这 些 漏洞 可 能 会 在 今后 的 版 本 中 被 检 


查 出 来 ， 并 被 阻止 。 


在 协 处 理 器 实例 的 生命 周期 中 ，Coprocessor 接口 的 start() 
和 stop( ) 方法 会 被 框架 隐 式 调用 ， 处 理 过 程 中 的 每 一 步 都 有 一 个 状 
态 。 表 4-10 列 举 了 协 处 理 器 提供 的 生命 周期 状态 。 


表 4-10 Coprocessor .State 枚 举 类 定义 的 状态 


rors 没有 环境 ， 也 没有 被 初始 化 
协 处 理 器 将 要 开始 工作 ， 也 就 是 说 start () 方法 将 : 
start() 方法 被 调用 ， 当 前 状态 设置 为 active 
stop() 方法 被 调用 之 前 的 状态 


stop() 方法 将 控制 权 交 给 框架 ， 协 处 理 器 会 被 设置 为 状态 stopped 


最 后 的 迷 团 是 CoprocessorHost 类 ， 它 维护 所 有 协 处 理 器 实例 
和 它们 专用 的 环境 。 它 有 一 些 子 类 ， 这 些 子 类 应 用 在 不 同 的 使 用 环 
境 ， 例 如 ，master 和 region 服 务 器 等 环境 。 


Coprocessor 、CoprocessorEnvironment 和 
CoprocessorHost 这 3 个 类 形成 了 协 处 理 絮 类 的 基础 ， 基 于 这 3 个 类 
能 够 实现 更 高 级 的 功能 。 它 们 支持 协 处 理 器 的 生命 周期 ， 管 理 协 处 理 
句 的 状态 ， 同 时 提供 了 执行 时 的 环境 参数 ， 以 保证 协 处 理 絮 正确 执 
ee 此 外 ， 这 些 类 也 提供 了 一 个 抽象 层 方便 用 户 更 简单 的 构建 目 己 的 
实现 。 


图 4-3 展 示 了 客户 端的 调用 如 何 与 一 系列 的 协 处 理 需 进行 交互 。 需 
要 注意 的 是 ， 执 行 顺 序 在 输入 输出 阶段 都 是 相同 的 : 首先 执行 系统 级 
协 处 理 侨 ， 然 后 是 用 户 级 协 人 处理 器 ， 并 按 它们 加 载 时 的 顺序 执行 。 
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图 4-3” 协 处 理 器 在 它们 每 个 region 环 境 中 按 顺 序 执行 
4.3.3 ” 协 处 理 器 加 载 


加 载 协 处 理 器 的 方式 有 许多 种 。 在 用 户 了 解 实际 的 协 处 理 器 类 型 
和 如 何 实现 目 定义 类 型 之 前 ， 首 先 需 要 了 人 解 如 何 部 署 它 们 ， 这 样 才 能 
笑 试 我 们 提供 的 例子 。 


用 户 可 以 将 协 处 理 器 配置 为 使 用 静态 方式 加 载 ， 也 可 以 在 集群 运 
行 时 动态 加 载 协 处 理 器 。 使 用 配置 文件 和 表 模 式 加 载 是 静态 加 载 方 
法 ， 接 下 来 会 介绍 这 种 方法 。 不 事 的 是 ， 现 在 还 没有 开放 用 户 动态 加 
载 协 处 理 器 的 API。 © 


1. 从 配置 中 加 载 


用 户 可 以 在 HBase 启 动 时 通过 配置 文件 控制 在 全 局 中 加 载 哪 些 协 处 
理 絮 。 用 户 通 过 添加 以 下 配置 中 的 一 条 或 儿 条 到 hbase-site.xml 文件 中 
来 添加 协 处 理 器 。 


< property> 
< name>hbase.coprocessor.region.classes< /name> 
< 
value>coprocessor .RegionObserverExample, coprocessor .AnotherCoproces 
sor < /value> 
< /property> 
< property> 
< name>hbase.coprocessor.master.classes< /name> 


< value>coprocessor.MasterObserverExample< /value> 
< /property> 
< property> 
< name>hbase.coprocessor.wal.classes< /name> 
< value>coprocessor .WALObserverExample, bar .foo.MyWALObserver< 
/value> 
< /property> 


Ya, 
mA 
a 好、 + 
wW a 


E 将 以 上 例子 中 的 类 名 替换 为 用 户 自己 的 类 名 。 


配置 文件 中 配置 项 的 顺序 非常 重要 ， 这 个 顺序 决定 了 执行 顺序 。 
所 有 协 处 理 器 都 是 以 系统 级 优先 级 进行 加 载 的 。 用 户 应 当 将 全 局 类 配 
置 到 这 里 ， 这 样 它们 会 被 优先 执行 ， 还 可 以 执行 权限 操作 。 安 全 相关 
的 协 处 理 瑚 都 是 这 样 加 载 的 。 


一 全 配置 文件 首先 在 HBase 启 动 时 被 检查 。 虽 然 用 户 可 
以 在 其 他 地 方 增加 系统 级 优先 级 的 协 处 理 器 ， 但 是 在 配置 文 


件 中 配置 的 协 处 理 右 是 家 最 先 执 行 的 。 


这 3 项 配置 中 只 有 一 个 会 被 与 之 相对 应 的 
CoprocessorHost 的 实现 加 载 。 例 如 ， 
hbase.coprocessor.master.classes 中 定义 的 协 处 
理 器 会 被 MasterCoprocessorHost 类 加 载 。 


表 4-11 展 示 了 每 个 配置 项 的 作用 。 
表 4-11 配置 项 和 它们 的 作用 


hbase.coprocessor.master.classes MasterCoprocessorHost master 服 务 器 
。 9 Æ BA 

hbase.coprocessor.region.classes RegionCoprocessorHost region 服 务 妖 
. Æ Ba 

hbase.coprocessor.wal.classes WALCoprocessorHost regioni ká at 


当 一 张 表 的 region 被 打开 时 ， 
hbase.coprocessor.region.classes 定义 的 协 处 理 器 会 被 加 
载 。 注 意 用 户 不 能 指定 具体 是 哪 张 表 或 哪个 region 加 载 这 个 类 : 默认 的 
ee 0 。 用户 在 设计 自己 的 协 处 理 器 时 

注意 这 一 把。 


2. 从 表 描 述 符 中 加 载 


另 一 个 决定 哪些 协 处 理 套 被 加 载 的 选项 是 表 摘 述 符 。 因 为 这 是 针 
对 特定 表 的 ， 所 以 加 载 的 协 处 理 紫 只 针对 这 个 表 的 region， 同 时 也 只 被 
这 些 region 的 region 服 务 句 使 用 。 换 句 话说 ， 用 户 只 能 在 与 region 相 关 的 
i AAE, Ml ANA TEmasterBK WALTER AY sch FE as EE 


由 于 它们 是 使 用 表 的 上 下 文 加 载 的 ， 所 以 与 配置 文件 中 加 载 的 协 
处 理 器 影响 所 有 表 相 比 ， 这 种 方法 加 载 的 协 处 理 器 更 具有 针对 性 。 用 
户 需 要 在 表 描 述 符 中 利用 HTableDescriptor .setValue( ) 方法 定 
义 它们 。 键 必须 以 COPROCESSOR 开头 ， 值 必须 符合 以 下 格式 : 


< path-to-jar>|< classname>|< priority> 


以 下 是 一 个 定义 了 两 个 协 处 理 絮 的 例子 ， 一 个 使 用 系统 优先 级 ， 
Fy “Me AAPA: 


"COPROCESSOR$1' => \ 


"hdfs://localhost :8020/users/leon/test.jar|coprocessor.Test|SYSTEM' 


"COPROCESSOR$2' => \ 
'/Users/laura/test2.jar|coprocessor.AnotherTest |USER' 


path-to-jar 可 以 是 一 个 完整 的 HDFS 地 址 或 其 他 Hadoop 
FileSystem 类 支持 的 地 址 。 第 二 个 协 处 理 器 就 使 用 了 本 地 路 径 。 


classname 定义 了 具体 的 实现 类 。 由 于 JAR 可 能 包含 许多 协 处 理 
器 类 ， 但 只 能 给 一 张 表 设 定 一 个 协 处 理 器 。 用 户 应 该 使 用 标准 的 Java 包 
命名 规则 来 命名 指定 类 。 


priority 只 能 是 SYSTEM 或 USER 。 


| 
不 要 在 协 处 理 器 定义 中 添加 空格 。 解 释 十 分 严格 ， 
添加 头 尾 或 间隔 字符 会 使 整个 配置 条 目 无 效 。 


使 用 $<number> 后 级 可 以 改变 定义 中 的 顺序 ， 即 协 处 理 器 的 加 载 
顺序 。 虽 然 只 有 COPROCESSOR 的 前 级 会 被 检查 ， 但 是 还 是 推荐 大 家 使 
用 数字 后 级 定义 顺序 。 例 4.19 展 示 了 如 何 使 用 管理 API 实 现 这 些 功 能 。 


例 4.19 ”检查 特定 get 请 求 的 region observer 


public class LoadwithTableDescriptorExample { 


public static void main(String[] args)throws IOException { 
Configuration conf = HBaseConfiguration.create(); 


FileSystem fs = FileSystem.get(conf); 
Path path = new Path(fs.getUri() + Path.SEPARATOR + 
"test.jar");@ 


HTableDescriptor htd = new HTableDescriptor("testtable");@ 
htd.addFamily(new HColumnDescriptor("colfami") ); 
htd.setValue("COPROCESSOR$1", path. toString() + 
"|" + RegionObserverExample.class.getCanonicalName() + ® 
"|" + Coprocessor.Priority.USER); 


HBaseAdmin admin = new HBaseAdmin(conf);®@ 
admin.createTable(htd); 


System.out.println(admin.getTableDescriptor(Bytes.toBytes("testtabl 
e")));® 
} 


@ 得 到 包含 协 处 理 瑚 实现 的 JAR 文 件 的 地 址 。 


OF ph Bila xe SUAS TIBI Ree Po 

@ 创 建 集群 的 管理 API 并 添加 这 个 表 。 

@ 检 查 定 义 的 协 处 理 右 是 否 修正 确 深 加 。 

当 运 行 一 个 本 地 单机 的 HBase 集 群 和 时， 最 后 的 检查 会 有 以 下 输出 : 


{NAME => 'testtable',COPROCESSOR$1 => \ 
'file:/test.jar|coprocessor.RegionObserverExample|USER', FAMILIES 
=> \ 
[{NAME => 'colfami',BLOOMFILTER => 'NONE',REPLICATION_SCOPE => 


'0',\ 

COMPRESSION => 'NONE',VERSIONS => '3',TTL => 
'2147483647',BLOCKSIZE \ 

=> '65536',IN MEMORY => 'false',BLOCKCACHE => 'true'}]} 


协 处 理 串 的 定义 被 成 切 地 添加 到 了 表 定 义 中 。 一 且 才 被 月 用 ， 且 
region it) 7, ERA HRAL EOC FT AE SS NARS at ， 然 后 再 加 
载 表 描述 符 中 的 协 处 理 郁 


4.3.4 Regionobserver 类 


在 region 级 别 中 介绍 的 Coprocessor 第 一 个 子 类 是 
RegionObserver 类 。 从 名 字 中 可 以 看 出 它 属 于 observer 协 处 理 絮 : 
当 一 个 特定 的 region 级 别 的 操作 发 生 时 ， 它 们 的 钩子 函数 会 被 触发 。 


这 些 操作 可 以 被 分 为 两 类 : region fE ay AERA EPs ‘ig API Vi 
H o RIRE ENAA PR Sh Se a 


1. 处 理 region 生 命 周 期 事件 
8.6 下 将 介绍 region 的 生命 周期 ， 图 4-4 简 单 展示 了 原理 。 


pending open j i i pending close 


图 4-4 ”在 region 生 命 周 期 状态 变化 时 起 作用 的 协 处 理 器 


这 些 observer 可 以 与 pending open、open 和 pending close 状 态 通 过 钓 
子 链接 。 每 一 个 钓 子 都 被 框架 隐 式 地 调用 。 


| 人 | 
—— 为 了 简洁 ， 在 介绍 observer 调 用 时 ， 所 有 参数 和 异 
常 都 被 名 略 了 。 读 者 可 以 从 线 上 文档 中 得 到 完整 的 定义 @ 。 
需要 注意 的 是 ， 所 有 的 调用 都 有 一 个 特定 的 第 一 参数 : 


ObserverContext< RegionCoprocessorEnvironment> c 


特殊 的 CoprocessorEnvironment 包装 让 用 户 可 以 
控制 在 钧 子 执行 之 后 会 发 生 什么 。 参 
li] “RegionCoprocessorEnvironment 
X” Fl“ObserverContext 类 ”两 节 中 的 详细 介绍 。 


状态 : pending open 。 region 将 要 被 打开 时 会 处 于 这 个 状态 。 监 听 
的 协 处 理 器 可 以 搭载 这 个 过 程 或 阻止 这 个 过 程 。 以 下 有 几 个 调用 可 以 


void preOpen(...)/ void postOpen(...) 


这 些 方法 会 在 region 被 打开 前 或 刚刚 打开 后 被 调用 。 用 户 可 以 在 目 
己 的 协 处 理 夯 实现 中 使 用 这 两 个 方法 ， 例 如 ， 使 用 preopen( ) 方法 告 
知 框架 这 次 打开 操作 应 当 补 放弃， 或 勾 住 postOpen( ) 方法 来 触发 一 
次 缓存 预 热 或 其 他 一 些 操作 。 


region 经 过 pending open， 且 在 打开 状态 之 前 ，region 服 务 器 可 能 需 
要 从 WAL 中 应 用 一 些 记录 到 region 中 ， 这 时 会 触发 以 下 方法 : 


void preWALRestore(...)/ void postWALRestore(...) 


这 个 方法 让 用 户 可 以 细 粒 度 地 控制 在 WAL 重 做 时 哪些 修改 需要 被 
闫 施 。 用 户 可 以 访问 修改 记录 ， 因 此 用 户 惑 可 以 监督 哪些 记录 被 实施 


ai 


状态 : opene 当 一 个 region 被 部 署 到 一 个 region 服 务 器 中 ， 并 可 以 
正常 工作 时 ， 这 个 region 会 被 认为 处 于 open 状 态 。 此 前 本 书 中 提 到 的 那 
些 方法 就 可 以 被 应 用 在 这 个 region 上 了 ， 例 如 ，region 的 内 存 存 储 可 以 
被 持久 化 到 磁盘 ， 当 它 变 得 非常 大 时 ，region 也 可 以 被 拆 分 。 可 用 的 钩 
FRR F: 


void preFlush(...) / void postFlush(...) 
void preCompact(...) / void postCompact(...) 


void preSplit(...) / void postSplit(...) 


现在 我 们 只 能 简单 直观 地 介绍 一 下 : pre 方 法 在 事件 执行 前 被 调 
用 ，post 方 法 在 事件 执行 后 被 调用 。 例 如 ， 用 户 使 用 preSplLit() #4 
子 芳 数 可 以 有 效 地 共用 region 拆 分 ， 然 后 手动 执行 这 些 操作 。 


状态 : pending close ° 最 后 一 组 region 监 听 器 的 钧 子 函 数 可 以 监听 
pending close 状 态 。 这 个 状态 在 region 状 态 从 open 到 closed 转 变 时 发 生 。 


在 region 被 关闭 之 前 和 之 后 ， 以 下 钩子 函数 将 被 执行 : 


void preClose(..., boolean abortRequested)/ 


void postClose(..., boolean abortRequested) 


abortRequested 参数 包含 了 region 被 关闭 的 原因 。 通 常情 况 
下 ，region 会 在 正常 操作 中 被 关闭 ， 例 如 ，region 由 于 负载 均衡 被 移动 
到 其 他 region 服 务 器 时 被 关闭 。 也 有 可 能 是 由 于 region 服 务 器 被 撤销 ， 
且 需 避免 一 些 副作用 。 当 这 些 情 况 发 生 时 ， 所 有 它 管 理 的 region 都 会 被 
撤销 ， 同 时 用 户 从 这 个 参数 中 可 以 看 到 是 否 符合 这 种 情况 。 


2. 处 理 客户 端 API 事 件 
与 生命 周期 事件 相 比 ， 所 有 的 客户 端 API 调 用 都 显 式 地 从 客户 端 应 


用 中 传输 到 region 服 务 嚣 。 用 户 可 以 在 这 些 调用 执行 前 或 刚刚 执行 后 拦 
截 它们 。 以 下 是 可 用 的 方法 。 


void preGet(...)/ void postGet(...) 

在 客户 端 HTable. get() 请 求 执行 之 前 和 之 后 调用 。 
void prePut(...)/ void postPut(...) 

在 客户 端 HTable,put() 请 求 执行 之 前 和 之 后 调用 。 
void preDelete(...)/ void postDelete(...) 

在 客户 端 HTable. delete( ) 请 求 执行 之 前 和 之 后 调用 。 


boolean preCheckAndPut(...)/ boolean postCheckAndPut(...) 


在 客户 端 调用 HTable.checkAndPut() 之 前 和 之 后 调用 。 
boolean preCheckAndDelete(...)/ boolean postCheckAndDelete(...) 

在 客户 端 调用 HTable.checkAndDelete( ) 之 前 和 之 后 调用 。 
void preGetClosestRowBefore(...)/ void postGetClosestRowBefore(...) 


在 客户 端 调 用 HTable .getclosestRowBefore( ) 之 前 和 之 后 
用 。 
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boolean preExists(...)/ boolean postExists(...) 


在 客户 端 调用 HTable .exits() 之 前 和 之 后 调用 。 


long preIncrementColumnValue(...)/ long 


postIncrementColumnValue(...) 


在 客户 端 调用 HTable .incrementCcolumnValue( ) 之 前 和 之 后 
调用 。 


void preIncrement(...)/ void postIncrement(...) 


在 客户 端 调用 HTable .increment() 之 前 和 之 后 调用 。 


InternalScanner preScannerOpen(...)/ InternalScanner 


postScannerOpen(...) 


在 客户 端 调用 HTable.getScanner() 之 前 和 之 后 调用 。 


boolean preScannerNext(...)/ boolean postScannerNext(...) 


在 客户 端 调 用 ResultScanner ,next() 之 前 和 之 后 调用 。 


void preScannerClose(...)/ void postScannerClose(...) 


在 客户 端 调用 ResultScanner .close( ) 之 前 和 之 后 调用 。 
3. RegionCoprocessorEnvironment 类 


实现 Region0bserver 类 的 协 处 理 器 环境 的 实例 是 基于 
RegionCoprocessorEnvironment 类 的 ， 
RegionCoprocessorEnvironment 实现 了 
CoprocessorEnvironment 接口 。 后 者 在 4.3 节 中 介绍 过 。 


除了 已 提供 的 方法 ， 一 些 更 特别 的 、 面 向 region 的 子 类 还 添加 了 一 
些 方 法 ， 具 体 接 述 见 表 4-12。 


表 4-12 RegionCoprocessorEnvironment 类 提供 的 方法 及 子 类 方法 


RegionServerServices 返回 间 t= \JRegionServerServices 
getRegionServerServices() 实例 


getRegion( ) 方法 可 以 用 于 得 到 目前 正在 管理 的 HRegion 实 
例 ， 同 时 可 以 执行 这 个 类 提供 的 方法 。 此 外 用 户 代 码 可 以 访问 共享 的 
RegionServerServices 实例 ， 这 会 在 表 4-13 中 进行 说 明 。 


表 4-13 RegionServerServices 类 提供 的 方法 


i 
ee 
并 代 沪 问 WAL 实 例 的 


CompactionRequestor 提供 Li p: C=) CompactionRequestor 实例 的 功能 


getCompactionRequester() 可 以 在 协 处 理 器 中 内 部 发 起 合并 


FlushRequester 提供 访问 共享 的 FlushRequester 实例 功能 ， 可 以 


getFlushRequester() 于 发 起 memstore lS 


a] FE = RegionServerAccounting 实例 的 功 
3 户 可 以 利用 它 得 到 当前 服务 进程 资源 的 占用 
状态 ， 例 如 当前 memstore 的 大 小 


RegionServerAccounting 
getRegionServerAccounting() 


postOpenDeployTasks(Hregion 
r, CatalogTracker ct, final 这 是 一 个 内 部 调用 ， 在 region 服 务 器 内 部 使 用 


boolean daughter) 


HBaseRpcMetrics 提供 访 问 共享 HBaseRpcMetrics 实例 的 功能 ， 包含 当 
getRpcMetrics() 前 服务 端 RPC 统 计 信息 


这 里 不 详细 讨论 所 有 功能 ， 不 过 用 户 可 以 参考 Java API 文 档 。 © 
4. ObserverContext 类 


RegionObserver 类 提供 的 所 有 回调 函数 都 需要 一 个 特殊 的 上 下 
文 作 为 共同 的 参数 : ObserverContext 类 ， 它 不 仅 提供 了 访问 当前 
系统 环境 的 入 口 ， 同 时 也 添加 了 一 些 关 键 功能 用 以 通知 协 人 处理 器 框 染 
在 回调 函数 完成 时 需要 做 什么 。 


mad a, 


rv 
所 有 的 协 处 理 需 在 执行 时 共用 一 个 上 下 文 实例 ， 并 
Shae iL © 


表 4-14 展 示 了 上 下 文 类 提供 的 方法 。 
表 4-14 ObserverContext 类 提供 的 方法 


当 用 户 代码 调用 此 方法 时 ， 框 架 将 使 用 用 户 提供 的 值 ， 
yea 而 不 使 用 框架 通常 使 用 的 值 


通知 框架 后 续 的 处 理 可 以 被 跳 过 ， 剩 下 没有 被 执行 的 协 
void complete() 理 器 也 会 被 跳 过 。 这 意味 着 当前 协 处 理 器 的 响应 是 最 
后 的 一 个 协 处 理 器 


boolean shouldBypass() | 框架 内 部 用 


boolean 
EHN 杏 标 十 
shouldComplete() 框架 内 部 用 来 检查 标志 位 


使 用 特定 的 环境 准备 上 下 文 。 这 个 方法 只 供 内 部 使 用 。 
它 被 静态 方法 createAndPrepare() 使 用 


void prepare(E env) 


static <T extends 


CoprocessorEnvironment> 

ObserverContext<T> 初始 化 上 下 文 的 静态 方法 。 当 提供 的 context 参数 是 null 
createAndPrepare(T env, ET, ES Ble That hl 

ObserverContext<T> 

context ) 


两 个 重要 的 上 下 文 方法 是 bypass() Flcomplete() ° EAR 
户 的 协 处 理 器 实现 提供 了 选择 ， 以 控制 框架 后 续 行 为 。complete( ) 
的 调用 会 影响 后 面 执 行 的 协 处 理 器 ， 同 时 pypass( ) 方法 可 以 停止 当 
e 。 通 过 之 前 的 例子 ， 用 户 可 以 使 用 它 停止 region 
E 分 : 


@Override 
public void preSplit(ObserverContext< RegionCoprocessorEnvironment> 
e){ 


e.bypass(); 


与 基于 接口 实现 自己 的 Regiono0bserver 相 比 ， 用 户 可 以 使 用 基 
类 修改 自己 需要 的 部 分 。 


5. BaseRegionObserver 类 

这 个 类 可 以 作为 所 有 用 户 实现 监听 类 型 协 处 理 器 的 基 类 。 它 实现 
了 所 有 Regionobserver 接口 的 空 方 法 ， 所 以 在 默认 情况 下 继承 这 个 
类 的 协 处 理 器 没有 任何 功能 。 用 户 需要 重 载 他 们 感 兴趣 的 方法 来 实现 
自己 的 功能 。 

例 4.20 实 现 了 一 个 observer 处 理 特殊 行 键 的 请 求 。 


例 4.20 ”检查 特殊 get 请 求 的 region observer 


public class RegionObserverExample extends BaseRegionObserver { 


public static final byte[] FIXED_ROW = 
Bytes. toBytes("@@@GETTIME@@@" ) ; 


@Override 
public void preGet(final ObserverContext< 
RegionCoprocessorEnvironment> e, 
final Get get, final List< KeyValue> results)throws 
IOException { 
if (Bytes.equals(get.getRow(),FIXED_ROW)){ © 
KeyValue kv = new 
KeyValue(get.getRow(),FIXED_ROW, FIXED_ROwW, 
Bytes.toBytes(System.currentTimeMillis())); 
results.add(kv);@ 


oy ES Ta AT HE ae GLE © 
@ 创 建 一 个 特殊 的 KeyValue 实例 ， 只 包含 服务 器 的 当前 时 间 。 
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将 下 面 的 配置 项 添加 到 hbase-site.xml 中 可 以 启动 协 
ANER es 


< property> 
< name>hbase.coprocessor.region.classes< /name> 


< value>coprocessor .RegionObserverExample< /value> 
< /property> 


由 于 已 经 把 编译 过 的 包含 这 个 类 的 JAR 添 加 到 了 hbase- 
env.sh 的 HBASE_CLASSPATH 中 ，region 服 务 属 在 JRE 中 可 以 


户 参 考 4.1.6 节 。 


用 
部 署 完 成 之 后 需要 重启 HBase 来 使 配置 生效 。 


{T#HE@@@GETTIME@@@ 被 observer 的 preGet ( ) 捕获 ， 然 后 添加 当 
en 。 部署 完成 之 后 ， 使 用 HBase Shell 可 以 看 到 如 下 输 


hbase(main):001:0> get 'testtable', ，QQQGETTIMEQQQ 


COLUMN CELL 

@@@GETT IME@@@ : @@@GETTIME@@@ timestamp=9223372036854775807, \ 
value=\x00\x00\x01/s@3\xD8 

1 row(s)in 0.0410 seconds 


hbase(main):002:0> Time.at(Bytes.toLong(\ 


"\x00\x00\x01/s@3\xD8".to_java_bytes)/ 1000) 


=> Wed Apr 20 16:11:18 +0200 2011 


这 些 请 求 都 针对 一 个 已 经 存在 的 表 ， 因 为 get 请 求 一 张 不 存在 的 
faa 。 由 于 示例 没有 设置 bypass 标志 位 ， 所 以 会 发 生 下 面 
JH : 


hbase(main):003:0> create 'testtable2', 'colfam1' 


0 row(s)in 1.3070 seconds 


hbase(main):004:0> put 'testtable2', '@@@GETTIME@@@', \ 


"colfam1:quali', 'Hello there!' 


© row(s)in 0.1360 seconds 
hbase(main):005:0> get 'testtable2', '@@@GETTIME@@Q' 
COLUMN CELL 


@@@GETTIME@@@ : @@@GETT IME@@@ timestamp=9223372036854775807, \ 
value=\x00\x00\x01/SJI\xXBC\XEC 


colfami:qual1 
timestamp=1303309353184, value=Hello there! 
2 row(s)in 0.0450 seconds 


新 表 被 创建 之 后 ， 疝 表 中 添加 一 行 数据 ， 这 一 行 数据 随后 也 被 检 
索 出 来 了 。 用 户 可 以 观察 到 用 户 深 加 的 列 与 表 中 实际 的 数据 混在 了 结 
果 中 。 为 了 避免 这 种 情况 ， 例 4.21 添 加 了 必要 的 e ,bypass() 调用 。 


例 4.21 regionobserver 检 查 特 殊 的 get 请 求 并 跳 过 之 后 的 处 理 过 程 


if (Bytes.equals(get.getRow(),FIXED_ROW) ){ 
KeyValue kv = new KeyValue(get.getRow( ), FIXED_ROW, FIXED_ROw, 


Bytes.toBytes(System.currentTimeMillis())); 
results.add(kv); 


e.bypass();@® 


@ 一 旦 特殊 的 KeyValue 被 添加 ， 之 后 的 操作 都 会 被 跳 过 。 


”用 户 需要 把 以 下 配置 添加 到 hbase-site.xml 


< property> 
< name>hbase.coprocessor.region.classes< /name> 


< value>coprocessor .RegionObserverwithBypassExample< /value> 
/property> 


与 之 前 的 示例 一 样 ， 请 重 局 HBase 使 改动 生效 。 


与 之 前 设想 的 一 样 ， 使 用 命令 行 查看 结果 ， 如 下 所 示 : 


hbase(main):069:0> get 'testtable2', '@@@GETTIME@@Q' 


COLUMN CELL 
@@@GETTIME@@@:@@@GETTIME@@@ timestamp=9223372036854775807, \ 
value=\x00\x00\x01/s ]\x1D4 


1 row(s)in 0.0470 seconds 


由 于 默认 的 get 操作 被 跳 过 ， 只 有 人 工 深 加 的 一 列 被 返回 ， 并 且 
是 返回 的 唯一 一 列 数据 。 同时 注意 返回 列 的 时 间 改 是 
9223372036854775807 ， 这 个 值 是 Long .MAX _VALUE 预 计 得 到 的 
值 。 因 为 示例 代码 创建 KeyValue 实例 时 并 没有 指定 时 间 戳 ， 所 以 被 
默认 设 为 HConstants .LATEST _TIMESTAMP ， 即 Long ,MAX 
_VALUE 。 用 户 可 以 修改 示例 代码 并 使 用 Shell 查 看 修改 后 的 返回 结果 。 


4.3.5 MasterObserver 2 


讨论 的 Coprocessor 的 第 二 个 子 类 是 为 了 处 理 master 服 务 絮 的 所 
有 回调 函数 。 这 些 操 作 和 API 调 用 会 在 第 5 章 介 绍 ， 与 关系 型 数据 库 中 
DDL 类 似 ， 它 们 可 以 被 归 类 到 数据 处 理 操 作 中 。 基 于 上 壕 原 因 
MasterObserver 类 提供 如 下 钧 子 函 数 。 


void preCreateTable(...)/ void postCreateTable(...) 


在 表 创 建 前 后 被 调用 。 


void preDeleteTable(...)/ void postDeleteTable(...) 


在 表 删 除 前 后 被 调用 。 


void preModifyTable(...)/ void postModifyTable(...) 


在 表 修 改 前 后 被 调用 。 


void preAddColumn(...)/ void postAddColumn(...) 


在 表 中 添加 列 前 后 被 调用 。 


void preModifyColumn(...)/ void postModifyColumn(...) 


在 表 中 列 被 修改 前 后 被 调用 。 


void preDeleteColumn(...)/ void postDeleteColumn(...) 


在 表 中 列 被 删除 前 后 被 调用 。 
void preEnableTable(...)/ void postEnableTable(...) 


在 表 局 用 前 后 被 调用 。 

void preDisableTable(...)/ void postDisableTable(...) 
TERESA BI a Val FA ° 

void preMove(...)/ void postMove(...) 


在 region 被 移动 前 后 被 调 用 。 

void preAssign(...)/ void postAssign(...) 
在 region 分 配 前 后 被 调用 。 

void preUnassign(...)/ void postUnassign(...) 
在 region 示 分配 前 后 被 调用 。 

void preBalance(...)/ void postBalance(...) 


在 region 人 负载 均衡 操作 前 后 被 调用 。 


boolean preBalanceSwitch(...)/ void postBalanceSwitch(...) 


在 修改 目 动 负 载 均 衡 标志 位 前 后 被 调用 。 


void preShutdown(...) 


在 集群 天 闭 工 作 开始 前 被 调用 。 没 有 post 钧 子 钞 数 ， 因 为 集群 天 闭 
之 后 没有 进程 可 以 执行 post 函 效 。 


void preStopMaster(...) 


在 master 进 程 停止 工作 开始 前 锌 调用。 没有 post 钧 了 函数 ， 因 为 
master 停 止 工作 之 后 没有 进程 可 以 执行 post 画 数 。 


1. MasterCoprocessorEnvironment 类 


与 RegionCoprocessorEnvironment 包括 一 个 
RegionObserver 协 处 理 器 类 似 ， 
MasterCoprocessorEnvironment 封装 了 一 个 MasterO0bserver 
实例 ， 它 同样 实现 了 CoprocessorEnvironment 接口 ， 因 此 它 也 能 
提供 getTable( ) 之 类 的 方法 帮助 用 户 在 自己 的 实现 中 访问 数据 。 

面 癌 master 的 子 类 添加 了 表 4-15 中 描述 的 方法 。 


表 4-15 MasterCoprocessorEnvironment 类 提供 的 非 继承 方法 


方法 


Ca RAMEN 


用 户 代码 可 以 访问 共享 的 MasterServices 实例 ， 表 4-16 介 绍 了 
它 的 方法 。 


表 4-16 MasterServices 类 提供 的 方法 


AssignmentManager 
getAssignmentManager ( ) 


MasterFileSystem 
getMasterFileSystem() 


ServerManager 
getServerManager ( ) 


ExecutorService 
getExecutorService() 


void 


checkTableModifiable(byte[] 以 修改 它 


tableName ) 


使 ] 户 可 以 访问 AssignmentManager 实例 ， 它 负责 为 
7 有 的 region 分 配 操作 ， 例 如 分 配 、 咎 载 和 负载 去 和 


提供 一 个 与 master 操 作 相 关 的 文件 系统 
如 ， 创建 和 或 上 志文 件 的 目录 


返回 serverManager 实例 。 它 可 以 访问 
进程 ， 无 论 进程 处 于 存活 、 死 亡 或 其 他 


执行 服务 被 master 用 


检查 表 是 否 已 经 存在 以 及 ， 如 果 是 就 可 


[一 
Cu 


在 这 里 不 会 介绍 所 有 的 细节 ， 更 多 信息 请 参考 Java APLC © 。 
2. BaseMasterObserver 类 


用 户 可 以 直接 实现 Master0bserver 接口 ， 或 扩展 
BaseMasterObserver 类 来 实现 自己 的 功能 。 
BaseMasterObserver 为 授 口 的 每 个 方法 完成 了 一 个 空 的 实现 。 用 
户 不 做 任何 改变 直接 使 用 这 个 类 不 会 有 任何 反馈 。 


用 户 可 以 通过 重 载 合适 的 事件 函数 来 实现 目 己 的 功能 。 用 户 可 以 


选择 对 应 的 pre 或 post 方 法 。 


例 4.22 使 用 了 post 钩 子 函 数 在 建 表 完 成 后 添加 了 其 他 操作 。 


例 4.22 ”创建 新 表 时 创建 一 个 单独 的 目录 


public class MasterObserverExample extends BaseMasterObserver { 


@Override 
public void postCreateTable( 
ObserverContext< MasterCoprocessorEnvironment> env, 
HRegionInfo[] regions, boolean sync) 
throws IOException { 
String tableName = 
regions[0].getTableDesc().getNameAsString();@ 


MasterServices services = 
env.getEnvironment().getMasterServices(); 

MasterFileSystem masterFileSystem = 
services.getMasterFileSystem();@ 

FileSystem fileSystem = masterFileSystem.getFileSystem(); 


Path blobPath = new Path(tableName + "-blobs");® 
fileSystem.mkdirs(blobPath) ; 


ON RHIF PRIRA ° 
@ 获 取 可 用 的 服务 ， 同 时 取得 真实 文件 系统 的 引用 。 
人 @ 创 建新 目录 用 来 存储 客户 端 应 用 的 二 进 制 数据 。 


% 用 户 需要 将 以 下 配置 项 添加 到 hpase_site xml 文件 
中 ， 然 后 协 处 理 需 将 被 master 进 程 加 载 : 


< property> 
< name>hbase.coprocessor.master.classes< /name> 
< value>coprocessor .MasterObserverExample< /value> 


< /property> 


运行 例子 之 前 ， 请 重 局 HBase 使 修改 生效 。 


一 旦 用 户 成 功 启动 了 协 处 理 器 ， 它 就 开始 监听 事件 并 在 事件 发 生 
时 自动 触发 用 户 添 加 的 代码 。 示 例 代码 使 用 了 已 提供 的 服务 建立 目 
7 | aa 可 以 使 用 这 个 目录 在 HBase 外 部 存储 大 的 二 进 制 对 
水 为 blob) ° 


使 用 Shell 触 发 事件 如 下 所 示 : 


hbase(main):001:0> create 'testtable', 'colfam1' 


© row(s)in 0.4300 seconds 


这 个 操作 创建 了 一 张 表 ， 然 后 调用 了 协 处 理 需 的 
postCreateTable() 方法 。 用 户 可 以 用 Hadoop 的 命令 行 工具 来 检验 
结果 : 


$ bin/hadoop dfs -ls 


Found 1 items 


drwxr-xr-x - larsgeorge supergroup 0... 
/user/larsgeorge/testtable- blobs 


用 户 可 以 使 用 Master0bserver 协 处 理 器 做 许多 事情 。 由 于 用 户 
可 以 通过 MasterServices 实 例 得 到 许多 共享 的 master 资 源 ， 所 以 用 
户 需 要 小 心 操 作 以 避免 造成 严重 破坏 。 


最 后 ， 因 为 Environment 实例 被 ObserverContext #42, 
用 户 也 可 以 调用 流程 控制 函数 bypass() 和 complete()。 用 户 可 以 
使 用 它们 显 式 地 禁用 一 些 操 作 ， 或 跳 过 后 续 要 执行 的 协 处 理 器 。 


4.3.6 endpoint 


在 之 前 Region0bserver 的 示例 中 ， 我 们 使 用 了 一 个 已 知 的 行 
键 ， 并 在 get 请 求 中 添加 了 一 个 计算 好 的 列 。 这 看 起 来 足以 让 我 们 实现 
人 例如 ， 使 用 聚合 函数 来 计算 一 个 特定 列 所 有 值 的 
i o 


不 于 的 是 ， 这 种 方式 行 不 通 ， 因 为 行 键 决 定 了 哪 一 个 region 处 理 这 
个 请 求 ， 所 以 计算 请 求 只 会 送 到 这 个 region 所 在 的 服务 器 上 。 而 我 们 需 
要 的 是 癌 所 有 region 发 送 请 求 ， 即 所 有 region 服 务 器 ， 这 样 它们 就 能 在 
本 地 计算 这 个 特定 列 的 所 有 值 之 和 。 一 旦 所 有 region 返 回 了 它们 的 计算 
结果 ， 我 们 就 可 以 在 客户 端 收集 这 些 结果 并 计算 出 最 终结 果 。 如 果 数 
据 有 1000 个 region 和 100 万 列 ， 用 户 会 在 客户 端 得 到 1000 个 十 进 制 的 计 
算 结 果 ， 每 个 结果 对 应 一 个 region。 用 户 使 用 这 样 的 形式 计算 最 终结 
的 速度 会 快 很 多 © 


如 采用 户 使 用 普通 的 客户 端 API 来 志 历 整个 表 ， 最 坏 的 情况 下 ， 用 
尸 可 能 需要 将 100 万 列 的 数据 全 传 到 客户 端 来 计算 最 终结 果 。 所 以 将 计 
算 园 移 到 服务 器 病 显 然 是 一 个 更 好 的 选择 。 不 过 HBase 可 能 不 知道 用 户 
具体 需要 做 什么 ， 为 了 克服 这 些 问题 ， 协 处 理 器 提供 了 以 endpoint 概 念 
为 代表 的 动态 调用 实现 。 


1. CoprocessorProtocol 接口 


为 了 给 客户 端 提供 自 定义 的 RPC 协 议 ， 系 统 提供 了 一 个 协 处 理 器 
实现 来 定义 扩展 CoprocessorProtocol 协议 的 接口 。 通 过 这 个 接口 
可 以 定义 协 处 理 器 希望 暴露 给 用 户 的 任意 方法 。 通 过 以 下 HTable 提供 
的 调用 方法 ， 使 用 这 个 协议 可 以 和 协 处 理 帮 实 例 之 间 通 信 。 


< T extends CoprocessorProtocol> T coprocessorProxy( 
Class< T> protocol,byte[] row) 
< T extends CoprocessorProtocol,R> Map< byte[],R> coprocessorExec( 
Class< T> protocol, byte[] startKey,byte[] endKey, 
Batch.Call< T,R> callable) 


< T extends CoprocessorProtocol,R> void coprocessorExec( 
Class< T> protocol,byte[] startKey,byte[] endKey, 
Batch.Call< T,R> callable, Batch.Callback< R> callback) 


由 于 CoprocessorProtocol 实例 和 表 中 单个 region 联 系 在 一 
起 ， 所 以 客户 端的 RPC 调 用 必须 定义 region， 这 个 region 会 在 


CoprocessorProtocol 方法 的 调用 中 被 使 用 到 。 虽 然 客 户 端 代码 很 
少 直接 对 region 进 行 操 作 ， 而 且 region 的 名 字 经 常 变 化 ， 然 而 协 处 理 器 
RPC 调 用 会 通过 行 键 来 查找 涉及 的 region。 客 户 端 可 以 调用 如 下 
CoprocessorProtocol 方法 。 


单个 region 


此 方法 使 用 单个 行 键 调用 coprocessorProxy() 。 返 回 一 个 
CoprocessorProtocol 接口 的 动态 代理 ， 它 使 用 包含 给 定 行 键 的 
region 作 为 RPC endpoint， 即 使 给 至 行 键 对 应 的 行 不 存在 也 不 影响 。 


一 段 范围 的 region 


此 方法 通过 使 用 起 始 行 键 和 终止 行 键 来 调用 
coprocessorExec() 。 表 中 包含 在 起 始 行 键 到 终止 行 键 (不 包含 终 
止 行 健 ) 范围 内 的 所 有 region 都 将 作为 PRC endpoint ° 


| 
一 人 作为 参数 被 传 入 到 HTable 的 方法 中 的 行 键 但 不 会 
传 入 CoprocessorProtocol 的 实现 中 ， 而 仅仅 被 用 于 确 
定 远 端 调 用 的 endpoint 的 region ° 


Batch 类 为 CoprocessorProtocol 中 涉及 多 个 region 方 法 的 调 
用 定义 了 两 个 接口 : 客户 端 实 现 了 Batch .Cal1 方法 来 调用 
CoprocessorProtocol 实例 的 方法 。 每 个 选中 的 region 将 会 调用 一 


次 这 个 接口 的 call( ) 方法 ， 并 将 CoprocessorProtocol 实例 作为 
region 的 参数 。 


在 调用 完成 时 ， 客 户 端 可 以 选择 实现 Batch .Callback 来 传 回 每 
次 region 调 用 的 结果 。 


void update(byte[] region,byte[] row,R result) 


以 上 方法 在 被 调用 时 将 使 用 以 下 函数 R_ call(T instance) ik 
回 的 值 作 为 参数 ， 并 且 每 个 region 都 会 调用 并 返回 。 


2. BaseEndpointCoprocessor 类 
实现 一 个 endpoint 涉 及 以 下 两 个 步 又 
1. 扩展 CoprocessorProtocol 接口 。 


一 步 将 设 定 与 新 endpoint 的 通信 细 玉 ， 即 定义 了 客户 端 和 服务 大 
SRCH Wo 


2. 扩展 BaseEndpointCoprocessor 类。 


用 户 必 须 实现 endpoint 涉 及 的 方法 ， 包 括 抽象 类 
BaseEndpointCoprocessor ， 以 及 之 前 定义 的 endpoint 协 议 接口 。 


例 4.23 实 现 了 CoprocessorProtocol， 并 为 HBase 添 加 了 目 定 
义 的 方法 。 客 户 端 可 以 远程 调用 该 方法 来 统计 每 个 region 中 的 行 数目 和 
KeyValue 数目 。 


例 4.23 endpoint 协 议 ， 添 加 一 个 行 和 KeyValue 的 计数 方法 


public interface RowCountProtocol extends CoprocessorProtocol { 
long getRowCount() throws IOException; 


long getRowCount(Filter filter)throws IOException; 


long getKeyValueCount() throws IOException; 


PO 
Be er We KK A BaseEndpointCoprocessor 


的 类 结合 起 来 。 例 4.24 使 用 环境 提供 的 InternalScanner 实例 来 访 
问 数 据 。 


例 4.24 endpoint 实 现 增加 了 行 和 KeyValue 实例 的 统计 方法 


public class RowCountEndpoint extends BaseEndpointCoprocessor 
implements RowCountProtocol { 


private long getCount(Filter filter,boolean countKeyValues ) 
throws IOException { 
Scan scan = new Scan(); 
scan.setMaxVersions(1); 
if(filter != null){ 
scan.setFilter(filter); 
} 


RegionCoprocessorEnvironment environment = 
(RegionCoprocessorEnvironment)getEnvironment(); 
// use an internal scanner to perform scanning. 
InternalScanner scanner = 
environment .getRegion().getScanner(scan); 
int result = 0; 
try { 
List< KeyValue> curVals = new ArrayList< KeyValue>(); 
boolean done = false; 
do { 
curVals.clear(); 
done = scanner.next(curVals); 
result += countKeyValues ? curVals.size() : 1; 
} while(done); 
} finally { 
scanner .close(); 


} 


return result; 


} 


@Override 
public long getRowCount() throws IOException { 
return getRowCount(new FirstKeyOnlyFilter()); 


} 


@Override 


public long getRowCount(Filter filter)throws IOException { 
return getCount(filter, false); 


} 


@Override 
public long getKeyValueCount() throws IOException { 
return getCount(null, true); 


注意 例子 中 如 何 使 用 FirstKey0nlyFilter 来 减少 扫描 的 列 


= fg 2 [Al hbase-site.xml 中 添加 (或 者 修改 以 前 的 
hbase-site.xml ) 如 下 配置 来 确保 你 的 endpoint 协 处 理 器 可 以 
被 region 服 务 右 加 载 : 


< property> 
< name>hbase.coprocessor.region.classes< /name> 


< value>coprocessor.RowCountEndpoint< /value> 
< /property> 


同 以 往 一 样 ， 需 要 重启 HBase 来 保证 这 些 设置 生效 。 


例 4.25 展 示 了 客户 端 如何 使 用 HTable 的 调用 来 执行 部 署 好 的 协 处 
理 器 endpoint 函 数 。 由 于 统计 请 求 被 单独 分 发 到 每 个 region 上， 最 后 需 
要 对 结果 进行 归并 处 理 。 


例 4.25 ”使 用 自 定义 行 计 数 endpoint 


public class EndpointExample { 


public static void main(String[] args)throws IOException { 

Configuration conf = HBaseConfiguration.create(); 

HTable table = new HTable(conf,"testtable"); 

try { 

Map< byte[],Long> results = table.coprocessorExec( 

RowCountProtocol.class, @ 
null,null,@ 
new Batch.Call< RowCountProtocol, Long>() { © 


@Override 
public Long call(RowCountProtocol counter )throws 
IOException { 
return counter .getRowCount();@ 
} 
}); 


long total = 0; 
for(Map.Entry< byte[],Long> entry : results.entrySet()){ © 
total += entry.getValue().longValue(); 
System.out.println("Region: " + 
Bytes. toString(entry.getKey())+ 


" Count: " + entry.getValue()); 
} 
System.out.println("Total Count: " + total); 
} catch(Throwable throwable) { 
throwable.printStackTrace(); 


@ 定 义 将 要 被 调用 的 协议 接口 。 

四 设置 起 始 行 键 和 终止 行 键 为 null， 来 统计 所 有 的 行 。 
日 创建 一 个 发 往 所 有 region 服 务 器 的 匿名 类 。 
Ocall() 方法 将 会 执行 endpoint 功 能 。 


@ 过 有 历 返 回 的 键 值 映射 结 有 末 ， 其 中 包含 了 每 个 region 的 结 


IN? 


这 上段 代码 返回 了 每 个 region 的 和 名字， 每 个 region 包 含 了 多 少 行 和 最 
终 计数 : 


: testtable,,1303417572005.51f9e2251c29ccb2,. ,cbcboc66858f,， 


: testtable, row3, 1303417572005. 7f3df4dcba3f...dbc99fce5d87., 


: 3 
Total Count: 5 


Batch 类 提供 了 另 一 种 更 加 便捷 的 方法 来 访问 远程 endpoint， 使 用 
Batch .forMethod() 会 得 到 一 个 已 经 配置 好 的 Batch .Cal1l 实例 ， 
renee region 服 务 器 。 例 4.26 使 用 了 这 个 方法 来 修改 

一 人 | 5 


例 4.26 ”使 用 Batch .forMethod() 来 减少 代码 数目 


Batch.Call call = Batch.forMethod(RowCountProtocol.class, 


"getKeyValueCount"); 


Map< byte[],Long> results = table.coprocessorExec( 
RowCountProtocol.class,null,null,call); 


forMethod() 方法 使 用 Java 的 反射 机 制 来 获取 给 定 的 方法 ， 返 回 
的 Batch.Cal1 实例 将 会 执行 andpoint 的 功能 ， 并 且 返 回 此 方法 的 协议 
定义 的 应 返回 的 数据 类 型 。 

然而 ， 如 果 通 过 直接 扩展 Batch ,Cal1l 实例 ， 可 以 对 这 些 结果 执 
行 额外 的 处 理 ， 这 样 处 理会 更 加 方便 和 灵活 。 例 4.27 展 示 了 批量 处 理 多 
个 endpoint 请 求 ， 并 统计 每 个 region 的 行 数 和 KeyValue 数 。 


例 4.27 ”扩展 批量 调用 来 执行 多 个 endpoint 的 调用 


Map< byte[],Pair< Long,Long>> results = table.coprocessorExec( 
RowCountProtocol.class, 


null, null, 
new Batch.Call< RowCountProtocol,Pair< Long,Long>>() { 


public Pair< Long, Long> call(RowCountProtocol counter) 


throws IOException { 


return new Pair(counter.getRowCount(), 


counter .getKeyValueCount ()); 


} 
p); 


long totalRows = 0; 


long totalKeyValues = 0; 
for(Map.Entry< byte[],Pair< Long, Long>> entry : results.entrySet()) 


totalRows += entry.getValue().getFirst().longValue(); 
totalKeyValues += entry.getValue().getSecond().longValue(); 
System.out.println("Region: " + Bytes.toString(entry.getKey())+ 
"'Count: " + entry.getValue()); 


} 


System.out.printin("Total Row Count: " + totalRows); 
System.out.println("Total KeyValue Count: " + totalKeyValues); 


运行 这 个 例子 ， 输 出 如 下 : 


Region: 
testtable, , 1303420252525. 9c336bd2b294a...0647a1f2d13b.,Count: {2,4} 


Region: 


testtable, row3, 1303420252525. 6d7c95de8a7...386cfec7f2.,Count: {3,6} 
Total Row Count: 5 
Total KeyValue Count: 10 


到 目前 为 止 ， 示 例 都 使 用 coprocessorExec( ) 请 求 来 集中 所 有 


region 的 请 求 ， 这 些 请 求 通 过 起 始 和 终止 行 键 确定 region。 例 4.28 中 使 用 
coprocessorProxy() 获取 了 一 个 endpoint 的 本 地 客户 端 代理 。 由 于 
行 键 被 指定 了 ， 不 管 这 个 行 键 在 region 中 是 否 存在 ， 只 要 这 个 行 健在 
region 的 起 始 行 键 和 终止 行 健 之 间 ， 客 户 端 API 都 会 通过 行 键 路 由 该 代 
理 调用 到 包含 这 个 行 键 的 region 。 


例 4.28 ”使 用 HTable 的 代理 调用 单个 region 的 endpoint 


RowCountProtocol protocol = table.coprocessorProxy( 
RowCountProtocol.class, Bytes. toBytes("row4")); 


long rowsInRegion = protocol.getRowCount(); 
System.out.println("Region Row Count: " + rowsInRegion); 


通过 使 用 代理 引用 ， 客 户 端 代码 可 以 调用 任何 
CoprocessorProtocol 中 摘 述 的 服务 硕 端 函数 ， 同 时 可 以 返回 对 应 
region 的 处 理 结果 。 图 4-5 说 明了 两 种 方法 的 差异 。 


RegionServer 1 
Batch.Call<RowCountProtocol, Long> 
Long call (RowCountProtocol p) ( RowCountEndpoint table,, 123456789 
return p.getRowCount(); 
RowCountEndpoint| table, row-6, 123456789 


HTable RowCountEndpoint| table, row-9, 123456789 


coprocessorExec( 
RowCountProtocol.class, 


null, null, call) 
RegionServer 2 


RowCountEndpoint] table, row-4, 123456789 


RowCountEndpoint| table, row-7, 123456789 


HTable 1 RowCountEndpoint| table, row-8, 123456789 


RowCountProtocol p = coprocessorProxy( 
RowCountProtocol.class, "row-890") 


Long countInRegion = 
p.getRowCount() 


图 4-5” 协 处 理 器 的 请 求 方式 分 为 两 种 : 批量 处 理 并 且 在 多 个 region 上 并 行 执行 ， 或 者 只 涉及 让 


个 region 


[Hr 


4.4 HTablePool 


与 其 为 客户 端的 每 个 请 求 创建 一 个 HTable 实例 ， 不 如 创建 一 个 实 
例 ， 然 后 不 断 地 复 用 这 个 实例 。 


按 以 上 方式 操作 的 主要 原因 ， 是 创建 HTable 实 例 是 一 项 非常 耗 时 
的 操作 ， 通 常 耗 时 数秒 才能 完成 。 在 资源 高 度 紧张 的 环境 中 ， 每 秒 都 
有 几 王 个 请 求 ， 为 每 个 请 求 单独 创建 HTable 实例 根本 行 不 通 ， 这 种 方 
式 速度 太 慢 了 以 至 于 无 法 调用 方法 。 用 户 应 当 在 一 开始 创建 实例 ， 然 
后 在 客户 端 生命 周期 内 不 断 复 用 他 们 。 


但 是 ， 在 多 线程 环境 中 重用 HTable 实例 会 出 现 其 他 问题 。 


| 
S HTable 类 不 是 线程 安全 的 ， 本 地 的 写 缓冲 区 并 不 
能 保证 一 致 性 。 即 使 使 用 setAutoFlush(true) (默认 设 
置 ， 详 见 3.2.1 节 的 “客户 端的 写 缓冲 区 ”) 也 无 济 于 事 。 你 必 
须 为 每 个 线程 创建 一 个 HTable 实例 。 


客户 端 可 以 通过 HTab1lePool 类 来 解决 这 个 问题 。 它 只 有 一 个 目 
的 ， 那 就 是 为 HBase 集 群 提供 客户 端 连接 池 。 用 户 可 以 通过 以 下 其 中 一 
个 构造 器 来 创建 池 ; 


HTablePool( ) 
HTablePool(Configuration config, Int maxSize) 


HTablePool(Configuration config,int maxSize, 
HTableInterfaceFactory tableFactory) 


默认 构造 器 ， 即 没有 参数 的 那个 ， 使 用 classpath 中 的 配置 创建 一 个 
eee 设 定 大 小 为 无 限 。 这 等 价 于 使 用 第 二 个 构 千 函数 编写 以 下 
JF: 


Configuration conf = HBaseConfiguration.create() 


HTablePool pool = new HTablePool(conf, Integer .MAX_VALUE ) 


maxSize 参数 是 连接 池 中 允许 的 最 大 HTable 实例 数目 。 可 选 参 
数 tableFactory 将 会 被 用 来 操作 自 定 义工 厂 类 ， 以 创建 实际 的 
HTable 实例 。 


HTableInterfaceFactory 接口 


用 户 可 以 创建 自 定 义 的 工厂 类 ， 例如， 为 HTable 实 
例 使 用 特定 的 配置 。 或 者 可 以 让 实例 完成 一 些 初 始 化 操 
作 ， 比 如 添加 行 ， 或 者 更 新 计数 器 。 如 果 用 户 想 自己 扩展 
HTableInterfaceFactory ， 则 必须 实现 下 面 两 个 方 
法 。 


HTableInterface createHTableInterface(Configuration config, 
byte[] tableName) 


void releaseHTableInterface(HTableInterface table) 


B— SFE FAHTable £f)], BO SAIFAAF 
释放 实例 。 用 户 可 以 在 调用 前 准备 好 实例 ， 并 在 使 用 完成 
之 后 进行 一 些 相 应 的 清除 操作 。 用 户 要 特别 注意 在 共享 表 
引用 时 对 客户 端 写 缓冲 区 的 处 理 。 
releaseHTableInterface( ) 是 完成 一 些 隐 式 的 操作 
的 理想 方法 ， 比 如 写 缓冲 区 刷 写 、 调 用 
flushCommits() 请 求 。 


工厂 类 有 个 默认 的 实现 ， 叫 HTableFactory ， 当 工 
厂 调用 create 方法 时 创建 HTable 实例 ， 当 调用 release 
方法 时 调用 HTable.close()。 


如 果 用 户 不 指定 自己 的 工厂 类 ， 系 统 会 默认 使 用 
HTableFactory ° 


可 以 用 如 下 调用 方式 来 使 用 表 实 例 池 : 


HTableInterface getTable(String tableName) 
HTableInterface getTable(byte[] tableName) 


void putTable(HTableInterface table) 


getTable() 方法 从 表 实 例 池 中 获取 HTable 实例 ， 使 用 之 后 通 
过 putTable( ) 方法 放 回 。 以 上 两 种 方法 把 一 些 工作 迁移 到 了 表 实 例 
池 配 置 的 HTableInterfaceFactory 接口 。 


Wa, 
一 一 maxSize 参数 并 不 强行 限制 用 户 所 能 得 到 的 
HTableInterface 实例 的 上 界 ， 用 户 可 以 使 用 


getTable() 方法 访问 尽 可 能 多 得 Table 实 例 。 


这 个 参数 仅仅 设置 表 实 例 池 中 能 够 存放 的 
HTableInterface 实例 的 数目 。 例 如 ， 当 用 户 将 这 个 值 设 
置 为 5 时 ， 调 用 10 次 getTable( ) 会 创建 10 个 HTable 实 
例 。 不 过 之 后 只 有 5 次 putTable( ) 方法 发 挥 作用 ， 后 面 5 次 
会 被 直接 忽略 。 更 重要 的 是 ， 工 厂 的 释放 (release) 机 制 也 
不 会 被 调用 。 


这 些 生 关闭 表 实 例 池 中 特定 表 实 例 的 方法 : 


void closeTablePool(String tableName) 
void closeTablePool(byte[] tableName) 


很 明显 ， 这 两 个 方法 的 功能 是 相同 的 ， 一 个 方法 的 参数 是 String 
， 胃 一 个 方法 的 参数 是 byte[] ， 用 户 可 以 按 自 己 的 需要 使 用 其 中 任意 


— A o 


close 方法 会 这 历 所 有 保存 在 列表 中 与 参数 对 应 的 表 引 用 ， 然 后 
使 用 工 上 的 释放 机 制 。 这 对 于 释放 一 张 表 的 所 有 资源 ， 并 重头 再 来 非 
党 有 用 。 请 记 住 ， 所 有 的 资源 都 需要 释放 ， 用 户 需 要 对 自己 使 用 过 的 
所 有 表 都 调用 这 个 方法 。 


例 4.29 展 示 了 如 何 创建 和 使 用 HTabLePool 。 
例 4.29 ”使 用 HTablePool 来 共享 HTable 实例 


Configuration conf = HBaseConfiguration.create(); 
HTablePool pool = new HTablePool(conf,5);@ 


HTableInterface[] tables = new HTableInterface[10]; 

for(int n = O;n < 10;n++){ 
tables[n] = pool.getTable("testtable");@ 
System.out.printin(Bytes.toString(tables[n].getTableName())); 


for(int n = O;n < 5;nt+){ 
pool.putTable(tables[n]);6© 


pool.closeTablePool ("testtable") ; @ 


@ 创 建 表 实 例 池 ， 并 允许 保留 5 个 实例 。 
@ 获 取 10 个 实例 ， 超 出 容量 5 个 。 


e a 实例 ， 其 中 的 5 个 会 被 保留 ， 多 余 的 会 
K o 


@ 关 闭 整个 表 实 例 池 ， 释 放 其 中 保留 的 表 实 例 引 用 。 
控制 台 展 示 结 果 如 下 : 


Acquiring tables... 
testtable 
testtable 
testtable 
testtable 
testtable 


testtable 


testtable 
testtable 
testtable 
testtable 
Releasing tables... 
Closing pool... 


之 前 已 经 讨论 过 了 使 用 多 于 配置 数目 的 HTable 实例 的 问题 。 虽 然 
将 实例 返回 到 TablePo01 时 没有 相应 日 志和 打印 输出 ， 但 释放 货源 的 
相关 操作 还 是 会 在 后 台 完 成 。 


使 用 场景 : Hush 


Hush 中 所 有 的 表 都 是 使 用 表 实 例 池 来 获取 的 。 下 面 是 
使 用 表 实 例 池 共 至 表 实 例 的 代码 。 


private ResourceManager (Configuration conf)throws IOException { 
this.conf = conf; 
this.pool = new HTablePool(conf,10); 
A A 

} 


public HTable getTable(byte[] tableName)throws IOException { 
return(HTable)pool.getTable(tableName) ; 
} 


public void putTable(HTable table)throws IOException { 
if(table != null){ 
pool.putTable(table); 


下 面 的 代码 演示 了 如 何在 上 下 文中 调用 这 些 代码 ， 如 
何 从 表 实 例 池 中 获取 表 引 用 ， 以 及 如 何 使 用 完成 之 后 再 交 
还 表 实例 池 中 。 


public void createUser(String username,String firstName,String 
lastName, 
String email,String password,String roles)throws IOException { 
HTable table = rm.getTable(UserTable.NAME) ; 


Put put = new Put(Bytes.toBytes(username) ); 
put .add(UserTable.DATA_FAMILY, UserTable.FIRSTNAME, 
Bytes.toBytes(firstName) ); 
put .add(UserTable.DATA_FAMILY, UserTable.LASTNAME, Bytes.toBytes 
(lastName) ); 
put .add(UserTable.DATA_FAMILY,UserTable.EMAIL, Bytes. toBytes 


(email) ); 

put .add(UserTable.DATA_FAMILY, UserTable.CREDENTIALS, 

Bytes.toBytes(password)); 

put .add(UserTable.DATA_FAMILY,UserTable.ROLES, Bytes. toBytes 
(roles)); 

table.put(put); 

table.flushCommits(); 

rm. putTable(table) ; 


45 连接 管理 


每 个 HTable 实 例 都 需要 建立 和 远程 主机 的 连接 。 这 些 连接 在 内 部 
使 用 HConnection 类 表示 ， 更 重要 的 是 ， 其 被 
HConnectionManager 类 管理 并 共享 。 用 户 没 有 必要 同时 和 这 两 个 
类 打交道 ， 只 需要 创建 一 个 configuration 实例 ， 然 后 利用 客户 端 
API 使 用 这 些 类 。 


HBase 内 部 使 用 键 值 映射 来 存储 连接 ， 使 用 Configuration 实例 
作为 键 值 映射 的 键 。 换 句 话说 ， 当 你 创建 很 多 HTable 实例 时 ， 如 果 你 
提供 了 相同 的 Configuration 引用 ， 那 么 它们 都 共享 同一 个 底层 的 
HConnection 实例 。 有 关 细 下 如 下 所 示 。 


共享 ZooKeeper 连 接 


l 因为 每 个 客户 端 最 终 都 需要 ZooKeeper 连 接 来 完成 表 的 region 地 址 
初始 寻 址 。 连 接 一 旦 建立 后 ， 共 享 就 变 得 很 有 意义 ， 这 使 得 之 后 的 客 
户 端 实例 可 以 共用 。 


缓存 通用 资源 


通过 ZooKeeper 查 询 到 的 -ROOT- 和 .META. 的 地 址 ， 以 及 region 的 
地 址 定位 都 需要 网 络 传输 开销 。 这 些 地 址 将 被 缓存 在 客户 端 来 减少 网 
络 的 调用 次 数 ， 因 此 达到 加 速 寻 址 的 目的 。 


对 于 每 个 连接 到 远程 集群 的 本 地 客户 端 来 说 ， 它 们 的 地 址 表 都 是 
相同 的 ， 因 此 运行 相同 进程 的 客户 端 共享 连接 非常 有 用 ， 这 是 通过 共 
=HConnection 实例 来 实现 的 。 另 外 ， 当 寻 址 失败 时 (如 region 折 分 
时 ) ， 连 接 有 内 置 的 重 试 机 制 来 刷新 缓存 ， 对 于 其 他 所 有 共享 相同 连 
接 引 用 的 客户 端 来 说 ， 这 项 更 改 立 即 生效 ， 因 此 这 更 加 减少 了 客户 端 
初始 化 连接 的 开销 。 


另 一 个 受益 的 类 是 HTablePo01 ， 所 有 连接 池 中 的 HTable 实例 
都 自动 共用 一 个 提供 的 Configuration 实例 ， 因 此 它们 也 共享 连 
接 。 因 为 当 用 户 想 创建 多 个 HTable 实例 时 ， 最 好 先 创建 一 个 共用 的 
Configuration 实例 。 


HTable table1 = new HTable("table1"); 
EP woe 


HTable table2 = new HTable("table2"); 


上 述 代 码 不 如 以 下 代码 有 效 : 


Configuration conf = HBaseConfiguration.create(); 
HTable table1 = new HTable(conf,"tablei"); 


//... 
HTable table2 = new HTable(conf,"table2"); 


后 者 隐 式 共享 HBase 客 户 端 API 类 提供 的 连接 。 


Fa 
BOC 
ba 


we K 
一 人 目前 没有 明显 的 证 据 表明 共享 连接 会 带 来 性 能 问 
题 ， 即 使 在 繁忙 的 多 线程 环境 下 也 是 如 此 。 


共享 连接 的 缺点 在 于 释放 ， 如 果 用 户 不 显 式 关闭 连接 ， 它 将 一 直 
存在 ， 直 到 客户 端 退出 。 这 样 可 能 导致 很 多 ZooKeeper 连 接 都 保持 打开 
状态 ， 尤 其 是 在 大 型 分 布 式 环境 下 ， 比 如 执行 MapReduce 作 业 的 HBase 
程序 ， 这 样 可 能 会 产生 一 些 问题 。 最 坏 的 情况 是 耗 尽 所 有 的 连接 句柄 
或 内 存 ， 并 导致 WO 异常 。 


用 户 可 通过 显 式 关闭 连接 来 避免 这 种 情况 。 建 议 用 户 不 再 需要 
HTable 时 主动 调用 HTable 的 close( ) 方法 ， 调 用 这 个 方法 将 释放 所 
a 其 中 包括 ZooKeeper 连 接 ， 同 时 移 除 内 部 列表 中 的 连接 引 


每 次 用 户 重用 Configuration 实例 时 ， 连 接管 理 器 都 会 增加 引 
用 计数 。 因 此 用 户 必 须 调用 close( ) 来 触发 清除 工作 。 以 下 是 用 显 式 
的 方法 来 清理 一 个 连接 或 所 有 连接 。 


static void deleteConnection(Configuration conf,boolean stopProxy) 


static void deleteAllConnections(boolean stopProxy) 


所 有 的 共享 连接 都 是 按照 Configuration 实例 作为 键 ， 因 此 用 
户 需 要 提供 这 个 实例 来 关闭 相应 的 连接 。 布尔 类 型 参数 stopProxy 保 
证 强制 清除 整个 客户 端的 RPC 栈 ， 因 此 不 再 需要 远程 连接 服务 器 时 ， 
应 该 将 这 个 参数 设置 为 true 。 


i rool aati 函数 只 需要 stopProxy 参数 ， 它 
将 遍历 整个 连接 管理 器 注册 过 的 共享 连接 列表 ， 然 后 逐一 释放 连接 。 


如 果 用 户 需要 显 式 地 使 用 某 个 连接 ， 可 以 通过 如 下 方式 使 用 
getConnection() 方法 。 


Configuration newConfig = new Configuration(originalConf ); 
HConnection connection = 
HConnectionManager . getConnection(newConfig) ; 


// Use the connection to your hearts' delight and then when done... 
HConnectionManager .deleteConnection(newConfig, true); 


这 样 操作 的 好 处 是 可 以 保证 这 个 连接 的 用 户 唯 一 ， 但 是 ， 切 记 必 
须要 在 调用 结束 后 关闭 它 。 
D 各 种 过 滤器 方法 在 4.1.6 方 中 讨论 。 

见 表 4-5 中 有 关 过 滤器 兼容 的 概述 。 


© 协 处 理 亏 是 最 近 添 加 到 HBase 中 的 ， 因 此 最 近 还 有 变化 。 在 线 的 文档 
和 问题 跟 踩 系统 都 不 完善 ， 但 在 计划 增加 中 。 


© 见 链接 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/coprocessor/Regi 
onObserver.html ° 


© API 文档 见 http://hbase.apache.org/apidocs/ ° 


© API 文 档 见 http://hbase.apache.org/apidocs/ ° 


第 5 章 ZAPI: 管理 功能 


除了 进行 数据 处 理 的 客户 端 API，HBase 还 提供 了 数据 描述 的 
API， 类 似 于 传统 RDBMS 中 的 DDL 与 DML。 首先 我 们 来 看 看 数据 模式 
定义 的 类 ， 然 后 探讨 如 何 使 用 这 些 API， 例 如 ， 建 表 。 


5.1 ”模式 定义 


在 HBase 中 建 表 涉 及 到 表 结 构 以 及 所 有 涉及 的 列 族 列 族 结构 的 定 
义 ， 这 些 定 义 关 系 到 表 和 列 族 内 的 数据 如 何 存储 以 及 何 时 存储 。 


5.1.1 # 
在 HBase 中 数据 最 终 会 存储 在 一 张 表 或 多 张 表 中 ， 使 用 表 的 主要 原 


因 是 控制 表 中 的 所 有 列 以 达到 共享 表 内 的 某 些 特性 的 目的 ， 一 个 典型 
的 例子 是 定义 表 的 列 族 。 下 面 是 表 揪 述 符 的 构造 玉 数 。 


HTableDescriptor(); 
HTableDescriptor(String name); 


HTableDescriptor(byte[] name); 
HTableDescriptor(HTableDescriptor desc); 


writable 和 无 参数 的 构造 函数 


API 提 供 的 大 多 数 类 和 本 章 中 讨论 到 的 类 都 拥有 一 个 
特殊 的 构造 男 数 ， 即 一 个 不 市 任何 参数 的 构造 钞 数 。 因 为 
这 些 类 都 实现 了 Hadoop Writable 接口 。 


任意 不 相交 系统 间 的 远程 通信 : 例如 ， 客 户 端 与 服务 
右 端 进行 交互 ， 或 者 服务 器 端 彼此 进行 内 部 通信 ， 都 使 用 


到 了 Hadoop RPC 框 架 。 这 个 框架 中 需要 远程 方法 中 的 参数 
都 实现 Writable 接口 ， 进 而 能 够 序列 化 对 象 并 进行 远程 
传输 。Writable 接口 有 两 个 必须 实现 的 方法 : 


void write(DataOutput out)throws IOException; 
void readFields(DataInput in)throws IOException; 


框架 通过 调用 这 两 个 方法 把 对 象 序列 化 成 输出 流 ， 通 
信和 接收 端 读 取 字 市 流 ， 并 将 其 反 序列 化 成 对 象 。 框 架 在 数 
据 发 送 剖 调 用 write( ) 方法 ， 并 序列 化 对 象 的 字段 ， 同 
时 会 在 字 市 流 中 添加 类 名 以 及 其 他 一 些 信息 。 


数据 接收 服务 器 先 读 取 元 数据 信息 ， 并 创建 类 的 无 参 
数 实例 ， 人 然后 调用 新 创建 对 象 的 readFields( ) 方法 ， 
将 字 节 流 中 的 信息 读 取 到 对 应 对 象 的 字段 中 ， 用 户 可 以 理 
解 为 这 是 数据 发 送 端 对 象 的 一 个 可 运行 的 ， 已 经 初始 化 的 
完整 副本 。 


因为 数据 接收 端 首先 读 取 元 数据 并 创建 该 类 的 空 实 
例 ， 并 通过 readFields( ) 方法 及 序列 化 字段 信息 到 新 
创建 的 实例 中 。 通 常客 户 端 与 服务 器 端 需要 使 用 相同 的 
HBase JAR ° 


如 果 用 户 开发 并 扩展 了 HBase 的 基础 实现 ， 例 如 ， 过 


滤器 和 协 处 理 器 〈 见 第 4 章 ) ， 用 户 必须 确保 满足 以 下 条 
nee 


1. ZERPCIE (a PA me 20 AY FD, BIE Ac SEE 
与 数据 接收 进程 均 可 用 。 


2. 实现 Writable 接口 ， 并 实现 了 write( ) 与 
readFields() 方法 。 


3. 拥有 无 参数 的 构 迁 函数 ， 即 一 个 没有 任何 输入 参 
BAR te EN BM o 


QUASI ATHY ACTA 15 FA AFIR EE BSE A, 
WU HRGS TIN fet, H HEMARI F fe cel H he) te Ea, 
征 徒 柬 的 ， 因 为 留 下 了 不 同 于 预期 定义 且 未 初始 化 的 变 
Ho 

客户 端 API 开 发 人 员 必 须 了 解 RPC 的 洪 在 依赖 ， 以 及 
怎样 部 署 API。 在 扩展 HBase 代 码 时 ， 融 级 开发 人 员 需 要 适 
当地 实现 和 部 署 自 定义 代码 。 详 情 见 4.1.6 廊 的 相关 例子 。 


用 户 可 以 通过 表 名 或 已 有 的 表 描 述 符 来 创建 表 。 没 有 任何 参数 的 
构造 函数 仅仅 是 为 了 反 序 列 化 ， 并 且 不 应 被 直接 使 用 。 表 名 通常 使 用 
Java String 类 型 或 byte[] (二 进 制 数组 ) 表示 ，HBase 中 的 很 多 功 
能 都 提供 以 上 两 种 参数 类 型 的 选择 。 使 用 字符 串 明 显 是 为 了 方便 使 
用 ， 在 HBase 内 部 通常 会 将 字符 串 转 化 为 字 节 数组 处 理 ，HBase 也 是 这 
样 的 处 理 模式 。HBase 中 提供 的 Bytes 类 有 转化 功能 ， 示 例如 下 : 


byte[] name = Bytes.toBytes("test"); 


HTableDescriptor desc = new HTableDescriptor (name); 


表 名 会 作为 存储 系统 中 存储 路 径 的 一 部 分 来 使 用 ， 因 此 必须 要 符 
合 文件 名 规范 ， 因 此 构成 表 名 的 字符 是 有 限制 的 。 用 户 可 以 直接 碍 看 
低级 别 存储 系统 ， 例 如 ， 用 户 在 HDFS 中 可 以 看 到 每 张 表 的 表 名 都 作为 


独立 的 目录 结构 一 一 在 某 些 情 况 下 ， 用 户 可 能 会 需要 查看 这 部 分 信 


HBase 列 式 存储 格式 允许 用 户 存 储 大 量 的 信息 到 相同 的 表 中 ， 而 在 
RDBMS 模 型 中 ， 大 量 信息 则 需要 切 分 成 多 张 表 存储 。 通 常 的 数据 库 范 
aly © 规则 不 适合 HBase， 因 此 HBase 中 表 的 数量 相对 较 少 。 更 多 详情 
企 1.3.3 节 © 


虽然 理论 上 HBase 的 表 是 由 行 和 列 组 成 的 ， 但 是 从 物理 结构 上 看 ， 
表 存 储 在 不 同 的 分 区 ， 即 不 同 的 region。 图 5-1 展 示 了 数据 存储 逻辑 与 
物理 上 的 不 同 。 每 个 region 只 在 一 个 region 服 务 右 中 提供 服务 ， 而 region 
直接 向 客户 端 提供 存储 服务 。 


Table - Logical View Regions - Physical Layout RegionServer - Serving Layer 


图 5-1 ”region 中 行 的 逻辑 与 物理 视图 


表 提 供 了 getter 与 setter 2 方法 来 设置 表 的 其 他 属性 。 实 际 上 ， 这 些 
属性 中 的 大 部 分 都 很 少 用 到 ， 但 走 这 些 属 性 非常 重要 ， 用 户 可 以 使 用 
这 些 方法 来 微调 表 的 性 能 ， 因 此 用 户 需要 了 解 它们 。 


R 


构造 函数 中 己 经 有 设置 表 名 的 参数 ，Java API 也 提供 了 显 式 设置 表 
名 的 方法 。 


byte[] getName(); 
String getNameAsString(); 


void setName(byte[] name); 


Wa, 
BAG 
a 地 + 
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E 表 名 一 定 不 能 以 <” (结束 符 ) 或 <” ( 连 字符 ) 开 
头 。 表 名 只 能 包含 拉丁 字母 或 数字 ， 以 及 “_” (FXI 

线 ) vam ( 连 字符 ) 或 <” (结束 符 ) 。 按 照 正则 表达 式 语 
法 ， 其 规则 可 表示 为 [a-zA-Z_0-9-.] ° 


例如 ，. testtable 是 错误 的 表 名 ，test,table 是 
正确 的 表 名 。 


有 天 表 名 如 何在 文件 系统 路 径 中 使 用 的 内 容 在 5.1.3 太 和 图 5-2 中 。 
列 族 
e 中 非常 重要 的 一 部 分 ， 用 户 需 要 在 表 中 指定 将 要 使 用 的 


void addFamily(HColumnDescriptor family); 


boolean hasFamily(byte[] c); 
HColumnDescriptor[] getColumnFamilies(); 
HColumnDescriptor getFamily(byte[]column); 
HColumnDescriptor removeFamily(byte[] column); 


用 户 可 以 添加 列 族 、 通 过 列 族 名 来 检查 列 族 是 否 存在 、 获 取 存 在 
的 列 族 的 列表 、 获 取 某 个 列 族 描述 符 (HColumnDescriptor ) 或 删 
除 某 个 列 族 等 操作 。 更 多 有 关 HColumnDescriptor 的 信息 在 5.1.3 节 


中 。 
文件 大 小 限制 


这 个 参数 限制 了 表 中 region 的 大 小 。 通 过 以 下 方法 可 以 显 式 地 获取 
和 设置 该 参数 的 值 : 


long getMaxFileSize(); 
void setMaxFileSize(long maxFileSize); 
wa, 
Box 
a ` + 
a j; 


E 文件 大 小 限制 并 不 能 表达 其 真正 的 含义 ， 其 真正 仿 
义 应 该 是 每 个 存储 单元 的 大 小 限制 ， 即 一 个 列 族 用 和 干 个 存 
储 单元 ， 而 其 中 每 个 存储 单元 会 包含 名 干 个 文件 。 如 琳 一 个 
列 族 的 存储 单元 已 使 用 的 存储 空间 超过 了 大 小 限制 ，region 
将 发 生 拆 分 操作 。 所 以 这 个 参数 被 称 为 naxStoreSize 更 


合适 。 


当 region 的 大 小 达到 配置 的 大 小 时 ， 文 件 大 小 限制 会 帮助 HBase 拆 
分 region，1.4 世 详细 讨论 了 如 何 通过 region 进 行 线性 拓展 和 负载 均衡 。 
因此 用 户 需 要 了 解 这 个 参数 应 该 设置 为 多 少 合适 ， 这 个 参数 的 默认 值 


72256 MB， 设 置 为 多 少 关 键 要 看 使 用 场景 ， 例 如 ， 表 数据 量 非常 的 大 
情况 下 ， 用 户 可 以 酌情 考虑 将 这 个 值 调 高 。 


请 注意 ， 这 个 参数 是 个 大 致 的 预期 值 ， 而 在 某 种 特定 条 件 下 ， 文 
件 大 小 可 能 会 超过 这 个 参数 的 大 小 ， 并 且 不 会 市 来 影响 。 例 如 ， 用 户 
将 这 个 参数 设置 为 10 MB， 人 然后 插入 了 一 行 大 小 为 20 MB 的 值 ， 由 于 一 
行 数据 不 能 跨 region 和 存储 ， 因 此 系统 也 整 不 会 拆 分 该 行 数据 。 


只 读 
默认 所 有 的 表 部 可 写 ， 但是， 对 一 些 特殊 的 表 来 说 ， 只 读 参 数 有 


特殊 的 用 途 。 如 果 该 参数 设置 为 true ， 这 个 表 只 能 读 而 不 能 修改 数 
据 。 通 过 以 下 方法 可 获取 和 设置 该 参数 : 


boolean isReadOnly(); 
void setReadOnly(boolean readonly); 


| 


memstore 刷 写 大 小 


早期 我 们 讨论 到 HBase 内 存 中 预 留 了 写 绥 冲 区 ， 写 操作 会 写 入 到 写 
缓 促 区 中 ， 然 后 按照 合适 的 条 件 顺序 写 入 到 磁 副 的 一 个 新 存储 文件 
中 ， 这 个 过 程 称 为 刷 写 (flush) 。 这 个 参数 能 够 控制 何 时 触发 将 内 存 
中 的 数据 写 入 到 磁盘 的 事件 。 示 例 方 法 如 下 : 


long getMemStoreFlushSize(); 
void setMemStoreFlushSize(long memstoreFlushSize) ; 


上 面 提 到 的 文件 大 小 限制 跟 需求 相关 ， 该 参数 的 默认 值 征 64 MB 。 
该 参数 越 大 ， 可 以 生成 的 存储 文件 越 大 ， 文 件数 量 会 越 少 ， 同 时 也 会 
导致 更 长 的 阻塞 时 间 问 题 。 这 种 情况 下 ，region 服 务 右 不 能 持续 接收 新 
增加 的 数据 ， 请 求 被 阻塞 的 时 间 也 惑 随 之 增加 了 ， 此 外 ， 一 旦 服务 天 
oS 系统 通过 WAL 恢 复数 据 的 时 间 也 相应 增加 了 ， 且 更 新 的 内 存 丢 


延 时 日 志 刷 写 


日 志 刷 写 的 细 市 可 查阅 8.3 节 ， 那 里 有 这 个 选项 的 详细 人 解释。 现在 
我 们 需要 注意 的 是 ，HBase 有 两 种 将 WAL 保 存 到 磁盘 的 方式 ， 一 种 是 延 
时 日 志 刷 写 (deferred log flushing) ， 另 一 种 则 不 是 。 这 个 参数 是 一 个 
布尔 类 型 变量 ， 默 认 设置 为 false。 下 面 是 通过 Java API 模 式 设置 参 
数 的 方法 : 


synchronized boolean isDeferredLogFlush(); 
void setDeferredLogFlush(boolean isDeferredLogFlush) ; 


其 他 选项 
除了 已 经 提 到 的 属性 ， 还 有 一 些 提供 给 用 户 设置 任意 键 值 对 的 方 
1 : 


byte[] getValue(byte[] key){ 
String getValue(String key) 
Map< ImmutableBytesWwritable, ImmutableBytesWritable> getValues() 


void setValue(byte[] key,byte[] value) 
void setValue(String key,String value) 
void remove(byte[] key) 


以 上 方法 中 的 数据 均 存 储 在 预定 义 的 表 中 ， 并 在 必要 的 时 候 能 被 
检索 。 例 如 ， 在 HBase 中 ， 用 户 可 以 通过 加 载 协 处 理 器 来 进行 检索 ， 详 
情 见 4.4.2 节 。 用 户 设置 键 与 值 时 有 多 种 选择 ， 如 String kbyte AX 
组 ， 内 部 数据 使 用 ImmutableByteswritable 类 型 存储 ， 目 的 是 为 
了 能 够 序列 化 ( 见 5.1.1 节 中 “Writable 和 无 参数 的 构造 函数 ”部 


分 ) 。 


5.1.3 Wik 


在 前 面 的 摘 述 中 ， 我 们 看 到 了 如 何 通 过 HTableDescriptor 类 
为 一 张 表 增加 列 族 ， 与 此 类 似 ， 这 里 提供 了 一 个 专门 的 Java 类 来 实现 对 
每 个 列 族 的 设置 。 在 其 他 编程 语言 中 ， 用 户 也 能 够 发 现 同样 的 设置 列 
族 属性 的 方法 。 


一 一 公 在 Java 中 ， 这 个 类 的 命名 并 没有 完全 体现 它 的 真正 
含义 ， 更 适合 的 命名 或 许 应 该 是 
HColumnFamilyDescriptor ， 这 个 类 名 能 够 表达 定义 列 
族 参数 的 含义 。 


列 族 定 义 了 所 有 列 的 共享 信息 ， 并 且 可 以 通过 客户 端 创建 任意 数 
量 的 列 ， 列 常用 的 变量 名 为 column qualifiers 。 定 位 某 一 具体 列 需 要 列 
族 名 与 列 名 合并 在 一 起 ， 以 “:” 分 割 |: 


family:qualifier 


列 族 名 字 必 须 是 可 见 子 符 ， 列 名 可 以 由 任意 二 进 制 字 符 组 成 。 前 
面 提 到 的 工具 类 Bytes 提供 了 将 Java 语 言 中 基本 类 型 转化 为 字 节 数组 
的 方法 。 列 族 名 必须 为 可 见 字 符 是 因为 这 个 名 字 将 会 在 底层 存储 系统 
中 使 用 ， 图 5-2 概 述 了 列 族 映 射 到 存储 系统 的 过 程 。 列 族 名 需要 添加 到 
文件 系统 路 径 名 中 使 用 ， 优 点 是 用 户 可 以 通过 格式 可 读 的 名 称 轻松 访 
问 文件 系统 层面 的 列 族 。 


一 用 户 需要 注意 空 列 名 的 使 用 ， 也 可 以 只 使 用 列 族 名 
而 忽略 列 名 ， 用 户 的 体验 是 一 样 的 。 读 写 操 作 与 其 他 列 没有 


区 别 ， 但 是 最 好 增加 列 名 来 加 以 区 分 。 


用 户 可 以 不 指定 简单 应 用 的 列 名 ， 只 是 使 用 HBase Shell 
查看 数据 时 看 不 到 有 价值 的 结果 。 从 规范 的 角度 来 讲 ， 用 户 
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性 地 选择 使 用 ， 并 定制 需要 的 参数 。 征 合 不 同 参数 的 构造 男 数 : 


HColumnDescriptor(); 
HColumnDescriptor(String familyName), 
HColumnDescriptor(byte[] familyName); 
HColumnDescriptor(HColumnDescriptor desc); 


HColumnDescriptor(byte[] familyName, int maxVersions, String 
compression, 


boolean inMemory, boolean blockCacheEnabled,int timeToLive, 
String bloomFilter); 


HColumnDescriptor(byte [] familyName, int maxVersions, String 
compression, 


boolean inMemory, boolean blockCacheEnabled,int blocksize, 
int timeToLive, String bloomFilter,int scope); 


Region [1...99) 
Column Family 1 Column Family 2 


is an 


~hbasefable/regon-1-99/colfamx 1-99/colfamX ~fnbase/tabeftegian-99-199/cofmx -99-199/colfamX 
[压缩 文件 GD 未 压缩 文件 


图 5-2” 列 族 映射 到 独立 的 存储 文件 


第 一 个 构造 范 数 用 于 内 部 反 序 列 化 。 接 下 来 的 两 个 构造 画 数 使 用 
了 String 或 byte[] ( 字 节 数组 已 经 在 文中 出 现 多 次 了 ) 。 男 外 一 个 
构造 画 数 复制 了 已 存在 的 HColumnDescriptor 对 象 属 性 ， 最 后 两 个 
则 给 出 了 所 有 可 用 参数 。 


除了 构造 画 数 ， 用 户 还 可 以 通过 getter 与 setter 方 法 设置 参数 。 接 下 
来 将 讨论 相关 细 广 。 


名 字 


每 个 列 族 都 有 名 字 ， 用 户 可 以 通过 HCoLumnDescriptor 实例 的 
以 下 方法 获取 列 族 名 。 


byte[] getName(); 


String getNameAsString(); 


| 
PPTL o NORE RTE— TOUR, 
然后 使 用 API 从 旧 列 族 中 复制 数据 到 新 列 族 。 


用 户 除 了 通过 构造 函数 ， 
HEW, IRA ae wy WF 


#3. 
py 
Loo SKI) N a A 5 
“Ss 列 族 名 不 能 以 “.” 开 头 ， 也 不 能 包含 *: ”、“/” 或 ISO 
控制 符 ， 即 字符 不 能 在 \u0000 到 \u001F 的 范围 内 或 
\UOO7F 到 \u009F 的 范围 内 。 


ie) 


没有 其 他 重 命名 列 族 的 途径 。 此 外 一 定 
FF 


最 大 版 本 数 
所 有 列 族 都 限定 了 每 个 值 能 够 倚 留 的 最 大 版 本 数量 。 在 前 面 提 到 


的 断言 删除 过 程 中 ，HBase 会 移 除 超过 最 大 版 本 数 的 数据 。 下 面 是 该 参 
ACH) getter setter 7 YE: 


int getMaxVersions(); 
void setMaxVersions(int maxVersions); 


该 参数 默认 值 是 3， 用 户 也 可 以 设置 为 1， 例 如 ， 在 不 访问 旧 数 据 
的 情况 下 。 


压缩 


HBase 文 持 插 件 式 的 压缩 算法 (RSMAS W135) ， 这 个 功能 
允许 用 户 移 择 最 适合 的 压缩 算法 一 一 或 不 压缩 一 一 数据 存储 在 特定 的 
列 族 中 。 表 5-1 列 出 了 目前 文 持 的 压缩 算法 。 


表 5-1 支持 的 压缩 算法 


吏 用 Java 提 供 的 或 本 地 库 提 供 的 GZIP 


E 缩 ， 需 要 安装 LZO 的 类 库 


-= 下 压缩 RU) 


用 Snappy 压 缩 ， 需 要 独立 安装 


上 默认 值 是 NONE ， 信 言 之 ， 束 古 创建 不 压缩 直接 存储 的 列 族 。 用 户 
如 采 需 要 Java API 和 列 描述 符 ， 可 能 会 用 以 下 方法 来 修改 相应 的 值 : 


Compression.Algorithm getCompression(); 
Compression.Algorithm getCompressionType(); 
void setCompressionType(Compression.Algorithm type); 


Compression.Algorithm getCompactionCompression(); 
Compression.Algorithm getCompactionCompressionType(); 
void setCompactionCompressionType(Compression.Algorithm type); 


注意 ， 压 缩 类 型 不 是 String 而 是 Compression .ALgorithm #4 
举 ， 枚 举 中 的 类 型 与 上 述 表 格 列 出 的 类 型 列表 一 致 。 
HColumnDescriptor 的 构造 画 数 也 同样 需要 字符 串 的 参数 形式 。 


获取 压缩 信息 有 两 种 方法 ， 一 种 是 一 般 压 缩 设 置 ， 另 一 种 是 合并 
压缩 设置 。 此 外 ， 每 种 方法 分 别 有 相 应 的 getCompression( ) 与 
getCompressionType() 或 getCompactionCcompression() 与 


getCompationCompressionType() ， 这 两 种 方法 返回 同一 类 型 的 
值 ， 都 可 以 用 于 检查 当前 压缩 算法 的 类 型 。@ 


更 多 相关 信息 在 11.3 节 中 有 详细 介绍 。 
块 大 小 


在 HBase 中 ， 所 有 的 存储 文件 都 被 划分 成 了 者 干 个 小 存储 块 ， 这 些 
小 存储 块 在 get 或 scan 操作 时 会 加 载 到 内 存 中 ， 它 们 类 似 于 RDBMS 
T a 。 这 个 参数 的 默认 大 小 是 64 KB， 并 通过 以 下 方法 设置 
HAR BY: 


synchronized int getBlocksize(); 
void setBlocksize(int s); 


_ 这 个 参数 用 于 指定 HBase 在 一 次 读 取 过 程 中 顺序 读 取 多 少数 据 到 内 
FRX, BAW 7 ° 


‘eh, 
一 注意 ， 这 里 有 一 个 重要 的 不 同 点 ， 列 族 的 块 ， 或 者 
说 HFile 的 块 不 同 于 HDFS 层 面 的 块 。HDFS 层 面 提 到 的 块 是 
用 于 拆 分 大 文件 以 提供 分 布 式 存储 ， 且 便于 MapReduce 框 架 
进行 并 行 计算 的 存储 单元 一 一 默认 是 64 MB。HBase 中 的 
HFile 块 大 小 默认 是 64 KB， 是 HDFS 中 块 大 小 的 1024 分 之 
一 ， 主 要 用 于 高 效 加 载 和 缓存 数据 ， 并 不 依赖 于 HDFS 的 块 
大 小 ， 并 且 只 用 于 HBase 内 部 。 更 多 内 容 见 8.2 节 ， 其 中 图 8-3 
展示 了 两 者 之 间 的 不 同 。 


缓存 块 


HBase 顺 序 地 读 取 一 个 数据 块 到 内 存 缓存 中 ， 其 读 取 相 邻 的 数据 时 
就 可 以 在 内 存 中 读 取 而 不 需要 从 磁盘 中 再 次 读 取 ， 有 效 地 减少 了 人 磁 一 
IO 的 次 数 ， 提 高 了 IO 效率 。 这 个 参数 默认 为 true ， 这 意味 着 每 次 读 
取 的 块 都 会 缓存 到 内 存 中 。 但 是 ， 如 果 用 户 要 顺序 读 取 某 个 特定 列 
族 ， 最 好 将 这 个 属性 设置 为 false ， 从 而 禁止 其 使 用 块 缓存 。 以 下 是 
可 以 改变 该 标识 的 API: 


boolean isBlockCacheEnabled(); 
void setBlockCacheEnabled(boolean blockCacheEnabled) ; 


下 有 其 他 参数 可 以 影响 块 缓存 的 使 用 ， a scan 的 过 程 涉及 从 
这 些 参数 最 终 都 可 能 影响 到 缓存 。 这 些 参数 在 全 表 扫 摘 时 非 
， 它 们 能 够 减少 \ 在 全 表 扫 措 过 程 中 缓存 的 大 量 流失 。 更 多 有 关 


HBase 不 仅 文 持 断言 删除 每 个 值 能 保存 的 版 本 数 ， 也 文 持 处 理 版 本 
数据 保存 时 间 。 生 存 期 (TTL) 设置 了 一 个 基于 时 间 惟 的 临界 值 ， 内 部 
的 管理 会 目 动 检查 TTL 值 是 否 达 到 上 限 ， 在 major 合 并 过 程 中 时 间 惟 被 
判定 为 超过 TTL 的 数据 会 被 删除 。 以 下 是 读 写 TTL 的 getter 与 setter 的 
API ° 


int getTimeToLive(); 


void setTimeToLive(int timeToLive); 


TIL 参 数 的 单位 是 秒 ， 默 认 值 是 Integer .MAX _VALUE ， 即 2 147 
483 647 秒 。 使 用 TTL 默 认 值 的 数据 可 以 理解 为 永久 保留 ， 即 生产 过 程 
中 产生 的 任意 正 数 都 永远 小 于 当前 默认 值 。 


在 内 存 中 
我 们 提 到 了 缓存 块 和 怎样 使 用 缓存 块 来 提高 连续 访问 的 效率 。 这 


里 还 有 一 个 在 内 存 中 (in-memory) 标志 ， 默 认 值 为 false ， 以 下 方 
法 可 以 修改 此 属性 。 


boolean isInMemory(); 
void setInMemory(boolean inMemory); 


将 这 个 参数 设置 为 true 并 不 意味 着 将 整个 列 族 的 所 有 存储 块 都 加 
载 到 内 存 中 ， 也 不 意味 着 它们 会 被 长 期 保存 在 那儿 ， 而 是 一 种 承 诸 ， 
或 者 说 是 高 优先 级 。 在 正常 的 数据 读 取 过 程 中 ， 块 数据 被 加 载 到 缓存 
区 中 并 长 期 驻 留 在 内 存 中 ， 除 非 堆 压 力 过 大 ， 这 个 时 候 才 会 强制 从 内 
存 凶 载 这 部 分 数据 。 


这 个 参数 通 弟 适合 数据 量 较 小 的 列 族 ， 例 如 ， 保 存 登 录 账 号 和 密 
码 的 用 户 表 ， 将 这 个 参数 设置 为 true 有 利于 提升 这 个 环节 的 处 理 速 


X 


布 隆 过 滤器 


布 隆 过 滤器 “是 HBase 系 统 中 的 高 级 功能 ， 它 能 够 减少 特定 访问 模 
式 下 的 查询 时 间 (细节 见 9.5 节 ) 。 但 是 ， 由 于 这 种 模式 增加 了 内 存 和 
Ce MAS ote 


表 5-2 ”支持 的 布 隆 过 滤器 类 型 


` 使 用 布 隆 过 滤器 


殉 用 布 隆 过 滤器 过 渡 


吏 用 布 隆 过 滤器 过 渡 


由 于 列 的 数量 远 多 于 行 的 数量 (除非 每 行 只 有 一 列 ) ， 使 用 最 后 
一 个 选项 ROWCOL 会 占用 大 量 的 空间 。 与 仅仅 只 有 行 的 模式 相 比 ， 行 / 
列 组 合 形式 的 粒度 无 疑 更 细 。 以 下 API 可 以 设置 布 隆 过 滤器 。 


StoreFile.BloomType getBloomFilterType(); 


void setBloomFilterType(StoreFile.BloomType bt); 


虽然 这 两 个 方法 提供 了 StoreFile .BloomType 类 型 ， 但 列 族 描 
述 符 也 可 以 直接 使 用 字符 串 进 行 描述 ， 所 以 参数 类 型 不 是 关键 因 素 ， 
例如 ， 用 户 可 以 使 用 *row ”。9.5 和 有 详细 的 相关 信息 ， 从 中 可 以 了 解 
怎样 使 用 才能 有 最 佳 效 果 。 


复制 范围 


HBase 的 另 一 个 高 级 功能 是 复制 (replication) 。 它 提供 了 跨 集群 
同步 的 功能 ， 本 地 集群 的 数据 更 新 可 以 及 时 同步 到 其 他 集群 。 复 制 范 
Æ] (replication scope) 的 参数 默认 为 0， 意 味 着 这 个 功能 默认 处 于 关闭 
状态 。 以 下 方法 可 以 改变 其 参数 。 


int getScope(); 


void setScope(int scope); 


男 一 个 可 设置 的 值 是 1， 这 个 参数 可 以 开局 本 地 集群 向 远程 集群 实 
时 同步 的 功能 。 将 来 这 个 参数 有 可 能 文 持 其 他 可 用 值 。 表 5-3 列 出 了 目 
前 已 支持 的 值 。 


表 5-3 ”支持 的 复制 范围 


范围 ， 即 关闭 实时 同步 (上 默认) 


范围 ， 即 开启 实时 同步 


更 多 相关 信息 可 在 8.8 节 中 进行 查阅 。 
最 后 ，Java 类 还 提供 了 检查 列 族 是 否 存在 的 帮助 方法 。 


static byte[] isLegalFamilyName(byte[] b); 


用 户 在 程序 中 可 以 通过 以 上 方法 验证 列 族 名 是 否 合 法 。 这 个 方法 
并 不 返回 布尔 类 型 标志 位 ， 而 是 当 检查 到 不 合法 的 输入 时 会 抛 出 
IllegalArgumentException 异常 ， 否 则 会 将 输入 直接 返回 。 这 个 
方法 会 在 构造 函数 中 调用 ， 不 需要 用 户 提前 特殊 调用 。 


5.2 HBaseAdmin 


客户 端 提供 了 API 的 模式 来 管理 集群 ， 与 RDBMS 中 的 DDL 相 比 
-客户 端 提 供 的 具有 管理 功能 的 API 更 像 是 DML 。 


HBaseAdmin 提供 了 建 表 、 创 建 列 族 、 检 查 表 有 是否 人 存在、 修改 表 
结构 和 列 族 结构 和 删除 表 等 功能 。 下 面 我 们 对 这 些 功能 掖 操作 关联 性 
a bi ITER ° 


5.2.1 基本 操作 
使 用 管理 的 API 需 要 首先 实例 化 HBaseAdmin 类 ， 构 造 函 数 如 下 : 


HBaseAdmin(Configuration conf) 


throws MasterNotRunningException, ZooKeeperConnectionException 


R 
一 人 本 节 论述 中 忽略 了 一 点 ， 管 理 功能 API 中 大 多 数 方 
法 都 抛 出 IOException (或 继承 自 它 的 异常 ) ， 或 者 是 
InterruptedException 。 前 者 是 客户 端 与 服务 器 端的 通 
言 异常 ， 后 者 是 执行 过 程 中 的 干扰 异常 ， 例 如 ，region 服 务 
器 的 执行 命令 在 完成 前 被 停止 所 引起 的 问题 。 


已 有 的 配置 实例 提供 了 足够 的 配置 信息 ， 所 以 当前 的 API 可 以 通过 
使 用 ZooKeeper 的 相关 配置 信息 查找 集群 ， 类 似 于 普通 客户 端 API 的 使 
用 方法 。 具 有 管理 功能 的 API 实 例 应 该 在 使 用 后 进行 销毁 ， 换 言 之 ， 这 
个 实例 不 应 该 长 期 保留 。 


”HBaseAdmin 实例 的 生命 周期 不 宜 太 长 ， 例 如 ， 
在 master 故 障 恢复 的 过 程 中 ， 它 是 短暂 有 效 的 。 


这 个 类 实现 了 Abortable 接口 ， 并 实现 了 以 下 方法 : 


void abort(String why, Throwable e) 


以 上 方法 被 框架 隐 式 调用 ， 例 如 ， 当 发 生 致命 连接 错误 或 天 闭 集 
群 时 。 用 户 不 能 直接 调用 这 个 方法 ， 但 是 在 紧急 的 情况 下 ， 例 如 需要 
完整 的 天 机 或 重 局 时 ， 系 统 会 调用 该 方法 。 


以 下 方法 可 以 获得 master 的 远程 对 象 : 


HMasterInterface getMaster() 
throws MasterNotRunningException, ZooKeeperConnectionException 


上 面 的 方法 会 返回 HMasterInterface 接口 的 RPC 代 理 实 例 ， 人 允 
许 用 户 直 接 通过 这 个 实例 访问 master 服 务 器 。 不 过 这 个 方法 不 是 必须 
的 ，HBaseAdmin 内 置 了 master 所 有 RPC 接 口 代理 的 封装 。 


a8 
一 人 除非 用 户 确定 自身 的 调用 是 安全 的 ， 否 则 不 要 直接 
调用 getMaster() 来 获取 HMasterInterface 远程 对 
象 。HBaseAdmin 上 自身 已 经 封装 了 HMasterInterface iz 
程 对 象 的 调用 功能 ， 例 如 ， 检 查 输入 是 否 合 法 ， 并 转化 成 远 
程 异常 返回 ， 或 优化 同步 处 理 为 异步 处 理 以 提升 执行 能 
力 。 


除了 上 述 接 口 ，HBaseAdmin 类 还 提供 了 以 下 基本 接口 。 


boolean isMasterRunning() 


通过 这 个 接口 检查 master 是 否 正在 运行 。 用 户 也 可 以 通过 客户 端 程 
序 在 实例 化 HBaseAdmin 类 之 前 直接 调用 该 接口 确认 其 可 以 与 master 


通信 。 


HConnection getConnection() 


返回 连接 实例 。 详 情 见 4.6 琅 。 


Configuration getConfiguration() 


访问 创建 HBaseAdmin 实例 时 使 用 到 的 配置 实例 ， 用 户 可 以 通过 
修改 这 个 实例 中 的 变量 达到 改变 HBaseAdmin API 调 用 时 依赖 的 配置 的 
目的 。 


天 财 HBaseAdmin 实例 的 所 有 资源 ， 包 括 与 远程 服务 着 的 连接 。 


5.2.2 HE 

在 介绍 了 基本 操作 后 ， 下 面 我 们 介绍 有 关 表 的 一 系列 操作 。 这 些 
操作 可 以 达到 帮助 表 工 作 的 目的 ， 而 非 实 际 的 内 部 模式 。5.2.3 习 讲解 
了 命令 行 的 表 模 式 操 作 信 息 。 


在 开始 工作 前 ， 首 先 要 做 的 是 建 表 ， 以 下 API 就 是 建 表 的 相关 方 


法 。 


void createTable(HTableDescriptor desc) 
void createTable(HTableDescriptor desc,byte[] startKey, 
byte[] endKey, int numRegions) 


void createTable(HTableDescriptor desc,byte[][] splitKeys) 


void createTableAsync(HTableDescriptor desc, byte[][] splitKeys) 


上 面 描述 的 方法 都 使 用 到 了 HTableDescriptor 实例 ， 详 情 见 
5.2.2 节 ， 其 中 提 到 了 建 表 的 要 点 ， 其 中 包括 列 族 的 创建 要 点 。 例 5.1 是 
一 个 简单 的 有 关 建 表 的 例子 。 


例 5.1 使 用 客户 端 API 建 表 


Configuration conf = HBaseConfiguration.create(); 


HBaseAdmin admin = new HBaseAdmin(conf);@ 


HTableDescriptor desc = new HTableDescriptor(@ 
Bytes.toBytes("testtable")); 


HColumnDescriptor coldef = new HColumnDescriptor(® 
Bytes. toBytes("colfami")); 
desc.addFamily(coldef ); 


admin.createTable(desc); © 


boolean avail = 
admin.isTableAvailable(Bytes.toBytes("testtable"));© 
System.out.println ("Table available: " + avail) ; 


@ 创 建 HBaseAdmin 实例 。 


@ 创 建 表 描 述 符 。 
@ 添 加 列 族 描述 符 到 表 描 述 符 中 。 
@ 调 用 建 表 方 法 createTable()。 
检查 表 是 否 可 用 。 
另 一 种 高 级 建 表 功能 是 ， 伴 随 建 表 操 作 进行 预 分 区 ， 将 表 在 创建 
。 例 5.2 使 用 了 两 种 预定 义 region 的 建 表 
例 5.2 ”通过 预 分 区 的 方式 建 表 


private static void printTableRegions(String tableName)throws 
IOException { @ 
System.out.printlin("Printing regions of table: " + tableName); 
HTable table = new HTable(Bytes.toBytes(tableName) ); 
Pair< byte[][],byte[][]> pair = table.getStartEndKkeys();@ 
for(int n = O;n < pair.getFirst().length;n++){ 
byte[] sk = pair.getFirst()[n]; 
byte[] ek = pair.getSecond()[n]; 
System.out.printin("[" +(n + 1)+ "]" + 
"start key: " + 
(sk.length == 8 ? Bytes.toLong(sk): Bytes.toStringBinary(sk) )+ 
© 
",end key: " + 
(ek.length == 8 ? Bytes.toLong(ek): 
Bytes.toStringBinary(ek))); 
} 


public static void main(String[] args)throws IOException, 
Interrupted Exception { 
Configuration conf = HBaseConfiguration.create(); 
HBaseAdmin admin = new HBaseAdmin(conf); 


HTableDescriptor desc = new HTableDescriptor ( 
Bytes.toBytes("testtablei")); 
HColumnDescriptor coldef = new HColumnDescriptor ( 
Bytes.toBytes("colfam1i") ); 
desc.addFamily(coldef); 


admin.createTable(desc, Bytes. toBytes(1L) 


,Bytes.toBytes(100L),10); 


(4) 
printTableRegions("testtable1"); 


byte[][] regions = new byte[][] { © 
Bytes.toBytes("A"), 
Bytes.toBytes("D"), 
Bytes.toBytes("G"), 
Bytes.toBytes("K"), 
Bytes.toBytes("0"), 
Bytes.toBytes("T") 


}; 
desc.setName (Bytes .toBytes("testtable2")); 
admin.createTable(desc, regions); © 
printTableRegions("testtable2"); 

} 


@ 打 印 表 中 region 信 息 的 帮助 方法 。 

@@ 反 回 表 中 所 有 region 的 起 始 行 刍 与 终止 行 刍 列 表 。 

日 打印 这 些 行 键 ， 但 不 包括 空 的 行 键 (起 始 与 终止 ) 。 

@ 执 行 建 表 命令 ， 同 时 设置 region 边 界 。 

人 @ 创 建 表 中 region 的 拆 分 行 键 。 

@ 使 用 新 表 名 和 region 的 已 拆 分 键 值 列表 作为 参数 调用 建 表 命令 。 


以 上 代码 例子 可 以 得 到 如 下 的 输出 : 


Printing regions of table: testtable1 


[1] start key:,end key: 1 

[2] start key: 1,end key: 13 

[3] start key: 13,end key: 25 

[4] start key: 25,end key: 37 

[5] start key: 37,end key: 49 

[6] start key: 49,end key: 61 

[7] start key: 61,end key: 73 

[8] start key: 73,end key: 85 

[9] start key: 85,end key: 100 

[10] start key: 100,end key: 

Printing regions of table: testtable2 
[1] start key:,end key: A 
[2] start key: A,end key: 
[3] start key: D,end key: 
[4] start key: G,end key: 
[5] start key: K,end key: 
[6] start key: 0O,end key: 
[7] start key: T,end key: 


Aoro 


以 上 例子 使 用 了 HTable 类 中 的 方法 getStartEndKeys() 来 获 


取 所 有 region 的 边界 。 第 一 个 region 的 起 始 行 键 与 最 后 一 个 region 的 终止 
行 键 都 是 空 字 人 ， 这 征 HBase 中 默认 的 规则 。 起 始 和 终止 行 键 都 是 已 经 
计算 好 的 ， 或 是 提供 给 用 户 的 拆 分 键 。 需 要 注意 的 是 ， 前 一 个 region 的 
终止 行 键 与 后 一 个 region 的 起 始 行 键 是 串联 起 来 的 一 一 终止 行 键 不 包含 
在 前 一 个 region 中 ， 而 是 作为 起 始 行 键 包 舍 在 后 一 个 region 中 。 


createTable(HTableDescriptor desc,byte[ | 
startKey,byte[] endKey, int numRegions) 方法 能 够 以 特定 
数量 拆 分 特定 起 始 行 键 和 特定 终止 行 键 ， 并 创建 表 。 参 数 中 的 
startKey 必须 小 于 endKey， 并 且 numRegions 需要 大 于 等 于 3， 否 
则 会 抛 出 异常 ， 这 样 才能 够 确保 region 有 最 小 的 集合 。 


在 这 个 方法 中 ，region 的 边 弄 站 通过 终止 行 键 减 去 起 始 行 键 然后 除 
以 给 定 的 region 数 量 计算 得 到 的 。 在 上 面 的 例子 中 ， 用 户 能 够 学 习 到 起 
样 计算 合 适 的 region 数 量 ， 以 保证 计算 出 的 行 键 可 以 填充 表 。 


createTable(HTableDescriptor desc,byte[ |][] 
splitKeys ) 方 法 在 例子 的 第 二 部 分 中 被 使 用 到 ， 换 句 话说 ， 它 使 用 
EDITERA: 使 用 了 已 经 拆 分 好 的 region 边 界 列 表 ， 因 此 结果 都 
是 与 预期 相符 的 。 


d. 
= 上 面 提 到 的 两 种 createTable( ) 方法 实际 上 是 有 
联系 的 ，createTable(HtableDescriptor 
desc,byte[] startKey, byte[ ]endKey, int 
numRegions) 方法 使 用 Bytes .split( ) 方法 计算 region 
分 界 ， 然 后 将 计算 得 到 的 边界 作为 已 拆 分 边界 列表 ， 并 调用 
create Table(HtableDescriptor desc,byte[][] 
splitKeys) 方法 建 表 。 


最 后 ， 还 有 createTableAsync(HTableDescriptor 
desc, byte[][] splitKeys) 方法 ， 这 个 方法 使 用 表 摘 述 符 和 预 拆 
分 的 region 边 界 作为 参数 ， 并 进行 异步 建 表 ， 但 执行 过 程 与 
createTable( ) 方 法 殊途同归 。 


一 一 * 表 的 大 多 数 管理 功能 都 是 异步 的 ， 这 对 发 送 命令 而 
不 需要 等 待 执行 结果 的 场景 是 非常 有 用 的 。 但 是 ， 也 有 一 些 
操作 必须 等 待 并 获知 操作 执行 成 功 后 ， 才 可 以 继续 执行 其 他 
操作 ， 因 此 ， 表 提供 了 异步 与 同步 两 种 操作 模式 。 


实际 上 ， 同 步 模 式 仅 仅 是 异步 模式 的 简单 封装 ， 增 加 了 
不 断 检查 这 个 任务 是 否 已 经 完成 的 循环 操作 。 例 如 ， 
createTable() 方法 包装 了 createTableAsync( ) 方 
法 ， 循 环 检查 远程 服务 器 的 建 表 操 作 是 否 已 经 执行 完成 。 


建 表 后 用 户 通过 下 面 的 帮助 方法 可 以 获取 所 有 表 的 列表 和 已 创建 
表 的 表 搞 述 符 ， 或 检查 该 表 是 否 存在 : 


boolean tableExists(String tableName) 
boolean tableExists(byte[] tableName) 


HTableDescriptor[] listTables() 
HTableDescriptor getTableDescriptor(byte[] tableName) 


例 5.1 使 用 tableExists() 方法 检查 建 表 是 否 成 功 ， 并 使 用 
listTables() 方法 获取 所 有 已 建 表 的 表 描述 符 对 象 ， 使 用 
getTableDescriptor() 方法 获取 某 一 个 已 建 表 的 表 描 述 符 ， 例 5.3 
使 用 了 1istTables() 和 getTableDescriptor() ， 并 展示 了 具有 
管理 功能 的 API 的 返回 值 。 


例 5.3 ”获取 所 有 已 建 表 的 表 结 构 


HBaseAdmin admin = new HBaseAdmin(conf); 


HTableDescriptor[] htds = admin.listTables(); 

for(HTableDescriptor htd : htds){ 
System.out.printin(htd); 

} 


HTableDescriptor htd1i = admin.getTableDescriptor ( 
Bytes.toBytes("testtable1")); 
System.out.printin(htd1); 


HTableDescriptor htd2 = admin.getTableDescriptor ( 
Bytes.toBytes("testtable10")); 
System.out.printin(htd2); 


HPT ENT ARMI AKRA Pa ie, AUS Bl SAY 
输出 非常 长 ， 以 下 我 们 节选 的 部 分 天 键 信 息 。 


Printing all tables... 


{NAME => 'testtable1',FAMILIES => [{NAME => 'colfam1',BLOOMFILTER 
=> 


"NONE', REPLICATION_SCOPE => '0',COMPRESSION => 'NONE', VERSIONS => 
EE 


TTL => '2147483647',BLOCKSIZE => '65536', IN-MEMORY => 
'false',BLOCKCACHE 

=> 'true'}, {NAME => 'colfam2',BLOOMFILTER => 

"NONE', REPLICATION_SCOPE 

=> '@',COMPRESSION => 'NONE',VERSIONS => '3',TTL => '2147483647', 
BLOCKSIZE => '65536',IN_MEMORY => 'false',BLOCKCACHE => 'true'}, 
{NAME => 

‘colfam3',BLOOMFILTER => 'NONE',REPLICATION_SCOPE => 

"@', COMPRESSION => 

"NONE', VERSIONS => '3',TTL => '2147483647',BLOCKSIZE => '65536', 
IN_MEMORY => 'false',BLOCKCACHE => 'true'}]} 


Exception org.apache.hadoop.hbase.TableNotFoundException: 
testtable10 


at ListTablesExample.main(ListTablesExample. java) 


上 壕 的 异常 信息 值得 一 提 ， 如 果 用 户 试图 访问 一 个 不 存在 的 表 描 
述 符 ， 就 会 得 到 上 述 对 应 的 异常 ， 因 此 用 户 在 访问 这 个 API 的 时 候 ， 必 
须 使 用 已 存在 的 表 的 表 名 ， 或 者 对 上 述 的 代码 使 用 try/catch 封装 
来 处 理 这 些 异 常 。 


描述 过 建 表 的 过 程 后， 我 们 要 提 一 下 删除 表 的 操作 ， 
HBaseAdmin 中 的 对 应 的 API 如 下 : 


void deleteTable(String tableName) 


void deleteTable(byte[] tableName) 


这 部 分 API 提 供 了 String 与 byte 数组 的 参数 ， 另 外 一 点 需要 注 
意 : 一 旦 表 被 删除 ， 所 有 的 数据 都 会 被 删除 。 


在 删除 表 之 前 ， 用 户 需要 确认 这 张 表 是 否 已 经 被 禁用 (disabled 
) ， 可 通过 如 下 方法 设置 该 参数 : 


void disableTable(String tableName) 
void disableTable(byte[] tableName) 


void disableTableAsync(String tableName) 
void disableTableAsync(byte[] tableName) 
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交 的 已 修改 数据 刷 写 到 磁盘 中 ， 然 后 关闭 所 有 的 region， 并 更 新 这 张 表 
的 元 数据 ， 将 所 有 region 标 记 为 下 线 状态 。 

用 户 可 选择 使 用 异步 与 同步 两 种 模式 ， 且 这 两 种 模式 均 文 持 不 同 
格式 的 表 和 名 。 
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tS 用户 将 表 设 置 为 禁用 时 可 能 会 花费 非常 长 的 时 间 ， 
甚至 长 达 几 分 钟 。 这 取决 于 在 服务 器 内 存 中 有 多 少 近 期 更 新 
的 数据 还 没有 写 入 磁盘 。 将 一 个 region 下 线 会 先 将 内 存 中 的 
数据 写 入 到 磁盘 中 ， 如 果 用 户 设置 了 较 大 的 堆 ， 这 将 导致 
region 服 务 器 需要 癌 人 磁盘 写 入 数 MB 甚 至 GB 的 数据 。 在 负载 
很 高 的 系统 中 进行 数据 写 入 时 ， 多 个 进程 间 的 竞争 会 使 这 个 
操作 的 执行 时 间 变 长 。 


一 旦 表 被 设置 为 禁用 ， 但 用 户 并 不 想 删 除 它 ， 可 以 通过 以 下 方式 
重新 局 用 该 表 。 


enableTable(String tableName) 
enableTable(byte[] tableName) 
enableTableAsync(String tableName) 


enableTableAsync(byte[] tableName) 
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外 ， 以 下 是 检查 表 的 状态 的 一 组 方法 : 


boolean isTableEnabled(String tableName) 
boolean isTableEnabled(byte[] tableName) 
boolean isTableDisabled(String tableName) 


boolean isTableDisabled(byte[] tableName) 
boolean isTableAvailable(byte[] tableName) 
boolean isTableAvailable(String tableName) 


例 5.4 集 合 了 建 表 、 删 表 、 禁 用 表 以 及 检查 表 状 态 等 操作 。 
例 5.4 禁用、 启用 和 检查 表 的 状态 


HBaseAdmin admin = new HBaseAdmin(conf); 


HTableDescriptor desc = new HTableDescriptor ( 
Bytes.toBytes("testtable")); 

HColumnDescriptor coldef = new HColumnDescriptor ( 
Bytes.toBytes("colfami") ); 

desc.addFamily(coldef); 

admin.createTable(desc); 


try { 
admin.deleteTable(Bytes.toBytes("testtable") ); 


} catch(IOException e){ 
System.err.printin("Error deleting table: " + e.getMessage()); 


} 


admin.disableTable(Bytes.toBytes("testtable")); 
boolean isDisabled = 


admin.isTableDisabled(Bytes.toBytes("testtable") ); 
System.out.println("Table is disabled: " + isDisabled); 


boolean availi = 
admin.isTableAvailable(Bytes.toBytes("testtable") ); 
System.out.printlin("Table available: " + avail1); 


admin.deleteTable(Bytes.toBytes("testtable")); 


boolean avail2 = 
admin.isTableAvailable(Bytes.toBytes("testtable") ); 
System.out.println("Table available: " + avail2); 


admin.createTable(desc); 

boolean isEnabled = admin.isTableEnabled(Bytes.toBytes 
("testtable")); 

System.out.printin("Table is enabled: " + isEnabled); 


控制 台 输 出 如 下 (异常 打印 缩写 ) 


Creating table... 

Deleting enabled table... 

Error deleting table: 
org.apache.hadoop.hbase.TableNotDisabledException: testtable 


Disabling table... 


Table is disabled: true 
Table available: true 
Deleting disabled table... 
Table available: false 
Creating table again... 
Table is enabled: true 


用 户 试图 删除 一 张 已 经 被 启用 的 表 时 会 抛 出 类 似 上 述 的 异常 ， 告 
诉 用 户 首先 要 将 该 表 设 置 为 禁用 状态 ， 或 者 客户 端 根据 应 用 的 需要 对 
异常 进行 处 理 ， 用 户 可 以 明确 地 禁用 表 并 重 试 删除 表 操 作 。 

isTableAvailable() 方法 返回 了 true ， 即 使 表 被 设置 为 禁 
状态 时 ， 该 方法 同样 也 会 返回 true 。 换 句 话说 ， 这 个 方法 只 对 表 进 行 
物理 检查 ， 而 不 关心 表 本 身 的 逻辑 状态 ， 因 此 要 获取 这 张 表 的 可 用 状 
态 需 要 使 用 isTableEnabled() 和 isTableDisabled() 方 法 。 


用 户 建 表 后 ， 如 果 需 要 修改 表 结 构 必 须 删 除 表 结构 然后 重建 表 ， 
或 采用 如 下 方法 改变 表 结 构 : 


void modifyTable(byte[] tableName,HTableDescriptor htd) 


与 前 面 提 到 的 deleteTable( ) 操作 类 似 ， 用 户 要 先 将 表 设 置 为 
禁用 状态 才能 修改 表 结 构 。 例 5.5 展 示 了 如 何 先 建 表 后 修改 表 结 构 。 


例 5.5 ”修改 表 结 构 


byte[] name = Bytes.toBytes("testtable"); 
HBaseAdmin admin = new HBaseAdmin(conf); 
HTableDescriptor desc = new HTableDescriptor(name) ; 
HColumnDescriptor coldef1 = new HColumnDescriptor ( 

Bytes.toBytes("colfam1i") ); 
desc.addFamily(coldef1); 


admin.createTable(desc);@ 


HTableDescriptor htdi = admin.getTableDescriptor(name);@ 

HColumnDescriptor coldef2 = new HColumnDescriptor ( 
Bytes.toBytes("colfam2") ); 

htd1i.addFamily(coldef2); 

htd1i.setMaxFileSize(1024 * 1024 * 1024L); 


admin.disableTable(name) ; 


admin.modifyTable(name, htd1) ; © 
admin.enableTable(name) ; 


HTableDescriptor htd2 = admin.getTableDescriptor(name) ; 
System.out.printin( "Equals: " + htd1i.equals(htd2));@® 
System.out.printin ("New schema: " + htd2) ; 


@ 使 用 旧 结 构建 表 。 

@ 获 取 表 结构 ， 增 加 列 族 ， 并 修改 最 大 文件 限制 属性 。 
稀 荣 用 表 ， 修 改 ， 然 后 局 用 表 。 

@ 检 查 表 结 构 是 否 已 经 个 修 改 成 功 。 
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Equals: true 

New schema: {NAME => 'testtable',MAX_FILESIZE => 
'1073741824',FAMILIES => 

[{NAME => 'colfami',BLOOMFILTER => 'NONE',REPLICATION_SCOPE => 'O', 
COMPRESSION => 'NONE', VERSIONS => '3', TTL => '2147483647', BLOCKSIZE 
=> 

'65536',IN MEMORY => 'false',BLOCKCACHE => 'true'}, {NAME => 


‘colfam2', 
BLOOMFILTER => 'NONE',REPLICATION_SCOPE => '0',COMPRESSION => 
'NONE', 


VERSIONS => '3',TTL => '2147483647',BLOCKSIZE => '65536', IN MEMORY 
=> 


'false',BLOCKCACHE => 'true'}]} 


调用 HTableDescriptor 对 象 的 equals( ) 方法 比较 客户 端 本 
eee (包括 所 有 列 族 以 及 与 它们 
y y ° 
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“~ modifyTable() 方法 只 提供 了 异步 的 操作 模式 ， 
没有 提供 同步 的 操作 模式 。 如 果 用 户 需 要 确认 修改 是 否 已 经 
成 功 ， 需 要 在 客户 端 代 码 中 显 式 循环 地 调用 
getTableDescriptor() 方法 获取 元 数据 ， 直 到 结果 与 本 
地 实例 匹配 。 


5.2.3 ”模式 操作 


除了 modifyTable( ) 方法 ，HBaseAdmin 类 另外 提供 了 几 种 表 
结构 修改 方法 。 当 然 ， 百 先 要 确保 表 已 经 被 禁用 。 


与 列 相关 操作 的 方法 集合 如 下 : 


addColumn(String tableName, HColumnDescriptor column) 
addColumn(byte[] tableName, HColumnDescriptor column) 
deleteColumn(String tableName, String columnName) 
deleteColumn(byte[] tableName, byte[] columnName) 


modifyColumn(String tableName, HColumnDescriptor descriptor) 
modifyColumn(byte[] tableName, HColumnDescriptor descriptor) 


通过 以 上 方法 ， 用 户 可 以 创建 、 删 除 、 修 改 列 族 。 增 加 或 修改 一 
个 列 族 需 要 准备 一 个 HColumnDescriptor 实例 ， 详 情 见 5.1.3 节 。 使 
用 getTableDescriptor( ) 方法 可 以 查询 当前 表 结 构 ， 然 后 调用 
getColumnFamilies() 方法 可 以 查询 到 所 有 已 存在 列 族 的 信息 。 


如 采用 户 不 采用 上 述 方 法 ， 其 只 能 通过 粗 粒 度 地 提供 常用 格式 的 
表 名 以 及 列 族 名 来 调用 删除 操作 ， 但 是 这 些 调用 都 是 异步 的 ， 结 采 不 
可 控 ， 用 户 要 目 己 承担 这 种 风险 。 


使 用 场景 : Hush 


值得 一 提 的 是 ， 表 创建 、 修 改 都 可 以 基于 一 个 外 部 的 
配置 文件 。Hush 模 式 恰好 利用 了 这 个 想法 ， 其 把 表 和 列 的 
描述 定义 在 XML 文件 中 ， 这 个 文件 可 读 并 包含 了 与 当前 表 
结构 的 对 比 。 下 面 的 示例 提供 了 相应 的 核心 代码 。 


private void createOrChangeTable(final TableSchema schema) 
throws IOException { 

HTableDescriptor desc = null; 

if (tableExists(schema.getName(), false) ){ 
desc = getTable(schema.getName(), false); 
LOG.info("Checking table " + desc.getNameAsString() + "..."); 
final HTableDescriptor d = convertSchemaToDescriptor (schema); 


final List< HColumnDescriptor> modCols = 
new ArrayList< HColumnDescriptor>(); 
for(final HColumnDescriptor cd : desc.getFamilies()){ 
final HColumnDescriptor cd2 = d.getFamily(cd.getName()); 
if (cd2 != null && !cd.equals(cd2)){ @ 
modCols.add(cd2); 


} 


final List< HColumnDescriptor> delCols = 

new ArrayList< HColumnDescriptor>(desc.getFamilies()); 
delCols.removeAll(d.getFamilies()); 
final List< HColumnDescriptor> addCols = 

new ArrayList< HColumnDescriptor>(d.getFamilies()); 
addCols.removeAll(desc.getFamilies()); 


if (modCols.size() > © || addCols.size() > © || delCols.size() > © 
|| @ 
!hasSameProperties(desc,d)){ 


LOG.info("Disabling table..."); 
hbaseAdmin.disableTable(schema.getName()); 
if (modCols.size() > 0 || addCols.size() > 0 || delCols.size() > 0) 
{ 
for(final HColumnDescriptor col : modCols){ 
LOG.info("Found different column -> " + col); 
hbaseAdmin.modifyColumn(schema.getName(),col. 
GetNameAsString(),® 
col); 
} 


for(final HColumnDescriptor col : addCols){ 
LOG.info("Found new column -> " + col); 
hbaseAdmin.addColumn(schema.getName(),col);® 

} 

for(final HColumnDescriptor col : delCols){ 
LOG.info("Found removed column -> " + col); 
hbaseAdmin.deleteColumn(schema.getName(),col. 

GetNameAsString());9® 


} else if(!hasSameProperties(desc,d)){ 
LOG.info("Found different table properties..."); 
hbaseAdmin.modifyTable(Bytes.toBytes(schema.getName()),d);@ 


LOG.info("Enabling table..."); 
hbaseAdmin.enableTable(schema.getName()); 
LOG.info("Table enabled"); 
desc = getTable(schema.getName(), false); 
LOG.info("Table changed"); 

} else { 
LOG.info("No changes detected!"); 


} 

} else { 
desc = convertSchemaToDescriptor(schema); 
LOG.info("Creating table " + desc.getNameAsString() + "..."); 
hbaseAdmin.createTable(desc) ;@ 
LOG.info("Table created"); 

} 

} 


@ 用 HBase 表 结构 的 元 数据 与 XML 定 义 文件 进 行 对 
比 ， 用 户 可 以 看 到 两 者 之 间 的 差异 。 


@ 检 查 列 族 和 表 的 定义 是 否 有 区 别 。 


全 修改 列 族 信 息 前 一 定 要 确保 表 已 经 被 禁用 。 
@ 增 加 列 。 

人 @ 删 除 列 。 

@ 如 采 发 现 表 结构 不 同 束 修 改 表 结构 。 

@ 如 采 表 不 存在 就 创建 表 。 


5.2.4 ”集群 管理 


HBaseAdmin 类 提供 的 最 后 一 组 操作 是 集群 管理 操作 。 人 允许 用 户 
查看 集群 当前 的 状态 ， 执 行 表 级 任务 和 管理 region。8.6 广 描述 了 有 关 
region 的 生命 周期 。 


名 >， 下 操作 者 是 本 向 高 级 用 户 的 ， 请 尊 导 使 用 


static void checkHBaseAvailable (Configuration conf) 
ClusterStatus getClusterStatus() 


checkHBaseAvailable( ) 方法 可 以 验证 客户 端 应 用 是 否 能 与 给 
定 文件 配置 中 的 远程 HBase 集 群 进行 通信 。 如 果 失 败 ， 该 方法 会 抛 出 异 
oe 该 方法 并 返回 布尔 型 变量 ， 即 成 功 了 无 返回 值 且 失败 
T 异常 > 


getClusterStatus() 方法 可 以 通过 查询 ClusterStatus 类 
的 实例 返回 集群 信息 ， 这 个 对 象 包含 了 集群 状态 的 详细 信息 。 详 情 见 
5.2.5 节 。 


void closeRegion(String regionname,String hostAndPort) 


void closeRegion(byte[] regionname, String hostAndPort) 


以 上 方法 可 以 让 已 经 在 region 服 务 絮 中 上 线 的 特定 region 下 线 。 任 
何 可 用 表 的 所 有 region 都 应 该 是 在 线 状态 ， 所 以 用 户 不 能 随意 地 下 线 某 


个 region。 


使 用 这 个 方法 时 ， 用 户 需 要 提供 准确 的 regionname ， 这 个 参数 
需要 与 元 数据 表 .META. 中 存储 的 一 样 ， 此 外 还 需要 hostAndPort 参 
数 ， 如 果 这 个 参数 不 为 空 ， 程 序 逻 辑 就 不 会 再 去 .META. 元 数据 表 中 查 
找 hostAndPort 的 信息 了 。 


这 个 命令 不 经 过 master 节 点 ， 即 客户 端 直接 与 region 服 务 器 通信 并 
发 送 region 下 线 命令 ， 该 命令 对 masterT 点 是 透明 的 。 


void flush(String tableNameOrRegionName ) 


void flush(byte[] tableNameOrRegionName ) 


表 中 所 有 的 更 新 在 未 刷 写 到 磁盘 之 前 都 会 和 完 写 入 region 的 
MemStore 实例 中 。 客 户 端 程序 可 以 在 达到 memstore 刷 写 上 限 
(memstore flush size) 《〈 见 5.1.2 节 ) 之 前 显 式 地 以 同步 模式 调用 当前 
方法 ， 以 达到 将 数据 刷 写 到 磁盘 的 目的 。 


该 方法 需要 region 名 或 表 名 ， 且 在 该 方法 执行 时 会 自行 判断 用 户 提 
供 的 名 称 与 已 存在 的 表 是 否 匹配 。 如 果 输 入 的 是 已 存在 的 表 名 ， 就 按 
照 表 级 别处 理 ;， 如 果 不 存在 该 表 名 ， 就 按照 region 名 人 处理， 如 果 既 不 是 
表 名 也 不 是 region 名 ， 就 抛 出 UnknownRegionException 异常 。 


void compact(String tableNameOrRegionName ) 


void compact(byte[] tableNameOrRegionName ) 


当前 方法 与 前 面 的 方法 类 似 ， 都 需要 将 region 名 和 表 名 作为 参数 ， 
这 个 方法 是 个 异步 方法 ， 因 为 合并 是 个 花费 时 间 比 较 长 的 操作 ， 客 户 
端 没 有 必要 一 直 等 待 这 个 操作 完成 。 调 用 这 个 方法 后 ， 这 个 表 或 者 
region 会 加 入 到 这 个 region 所 在 的 region 服 务 器 的 一 个 执行 队列 ， 并 会 在 
百 台 完成 操作 ， 或 者 是 在 上 线 该 表 region 的 所 有 region 服 务 右 中 执行 
(具体 过 程 见 1.4.3 节 ) 。 


void majorCompact(String tableNameOrRegionName) 


void majorCompact(byte[] tableNameOrRegionName) 


以 上 方法 类 似 于 compact( ) 方法 ， 也 依赖 于 后 台 队 列 操作 ， 不 过 
是 执行 的 major 合 并 。 提 供 了 表 名 后 ，API 内 部 会 迭代 这 张 表 所 有 的 
region， 并 顺序 调用 region 的 合并 操作 。 


split(String tableNameOrRegionName) 
split(byte[] tableNameOrRegionName) 


split(String tableNameOrRegionName, String splitPoint) 
split(byte[] tableNameOrRegionName, byte[] splitPoint) 


这 个 方法 用 于 拆 分 一 个 region 或 拆 分 整 张 表 ， 如 果 提 供 了 表 名 ， 
API 内 部 会 送 代 这 张 表 的 所 有 region 并 调用 拆 分 命令 。 


值得 注意 的 一 个 参数 是 splitPoint ， 如 果 这 个 参数 不 为 空 ， 并 
指定 了 特定 的 region， 那 么 这 个 region 会 按照 这 个 指定 的 行 键 来 拆 分 。 
如 果 指 定 的 是 表 名 ， 整 张 表 的 region 在 执行 拆 分 前 会 进行 检查 ， 且 包含 
这 个 特定 的 行 键 的 region 会 按照 这 个 特定 的 行 键 进行 拆 分 。 


如 果 使 用 splitPoint ， 用 户 首 先 要 确保 行 键 是 合法 的 ， 即 它 必 
须 在 给 定 的 region 中 ， 并 且 必 须 大 于 region 的 起 始 行 键 ， 因 为 在 一 个 
region 的 起 始 行 键 处 进行 region 拆 分 是 无 效 的 。 如 果 提 供 的 行 键 不 正 


确 ， 这 个 行 键 会 被 忽略 ， 并 且 客 户 端 没 有 任何 反馈 ， 但 部 嗜 这 个 region 
的 region 服 务 器 会 在 日 志 中 打印 如 下 的 信息 : 


Split row is not inside region key range or is equal to startkey: 
< split 


row> 


void assign(byte[] regionName,boolean force) 
void unassign(byte[] regionName, boolean force) 


客户 端 可 以 通过 上 面 的 方法 来 控制 region 的 上 线 和 下 线 。 第 一 个 方 
法 可 以 提供 上 线 操作 ， 上 线 操作 会 基于 master 生 成 的 上 线 计划 目 动 执 


行 ， 第 二 个 方法 提供 了 region 的 下 线 操作 ° 


force 参数 设置 为 true 对 上 面 两 个 方法 的 意义 是 不 一 样 的 : 第 
一 个 方法 assign() 会 强制 在 ZooKeeper 中 标记 这 个 region 为 下 线 状 
态 ， 并 将 这 个 region 转 移 到 一 个 新 的 region 服 务 器 中 。 用 户 使 用 时 需要 


JION; 
注意 这 个 region 是 否 已 经 上 线 。 


第 二 个 方法 unassign( ) 意味 着 无 论 当 前 region 是 否 在 线 都 会 强制 
再 做 一 次 下 线 操 作 。 如 果 force 设置 为 false 就 不 会 带 来 任何 影响 。 


void move(byte[] encodedRegionName,byte[] destServerName) 


使 用 move( ) 方法 可 以 通过 客户 端 控 制 某 个 region 在 哪 台 服 务 器 上 
线 。 用 户 可 以 使 用 此 方法 将 一 个 region 从 当前 region 服 务 絮 移动 到 一 个 
新 的 region 服 务 器 。destServerName 参数 可 以 设置 为 hull ， 这 样 会 
获得 一 个 随机 的 服务 器 地 址 ， 否 则 必须 获取 一 个 合法 的 服务 器 地 址 ， 
即 一 个 正在 运行 的 region 服 务 絮 进程 。 如 果 这 个 参数 有 误 或 者 这 个 服务 
铬 当前 没有 回应 ， 这 个 region 会 在 其 他 服务 器 上 线 。 最 糟 料 的 情况 下 ， 
这 次 移动 region 的 操作 会 失败 ， 并 让 这 个 region 下 线 。 


boolean balanceSwitch (boolean b) 


boolean balancer() 


第 一 个 方法 可 以 控制 region 的 负载 均衡 算法 是 否 开启 。 如 果 人 负载 均 
衡 算法 已 经 打开 ，balancer( ) 能 主动 运行 负载 均衡 算法 将 每 台 region 
服务 器 上 线 的 region 进 行 均匀 再 分 配 。11.5 方 解释 了 相应 的 细节 。 


void shutdown() 


void stopMaster() { . 
void stopRegionServer (String hostnamePort) 


aE TE 会 分 别 进行 天 闭 集 群 、 关 闭 master 进 程 和 关闭 某 台 region 
服务 希 操 作 。 一 旦 调用 这 个 方法 ， 被 执行 的 服务 器 会 马上 进入 天 闭 状 
态 ， 即 不 存在 延 时 ， 且 是 个 不 可 逆 的 过 程 。 


。 使 用 时 需要 特 
ER! 


5.25 ”集群 状态 信息 


调用 HBaseAdmin.getCclusterStatus() 可 以 查询 
CLUS ELS onus 实例 ， 这 个 实例 包含 了 master 搜 集 到 的 整个 集群 信 
息 。 注 意 ， 这 个 类 也 有 setter 方 法 ， 此 方法 允许 用 户 修改 里 面 的 信息 ， 
但 通过 set 方法 修改 的 仅仅 是 本 地 副本 的 变量 ， 除 非 用 户 需 要 修改 本 
地 副本 的 变量 值 。 


表 5-4 列 出 了 ClusterStatus 类 的 所 有 方法 。 
表 5-4 ClusterStatus 提供 信息 概览 


当前 活着 的 region 服 务 器 的 数量 ， 此 
int getServersSize() 数量 不 包括 不 可 状态 的 region 服 务 


前 存活 的 region 服 务 器 的 列表 ， 包 
Collection<ServerName> getServers() ion 服 务 器 的 服务 、 卫 、RPC 端 


` 局 动 时 间 稚 等 


于 不 可 用 状态 的 region 服 务 
int getDeadServers() ae 此 数量 不 包括 可 用 状 ; 


region 服 务 器 


Collection<ServerName>getDeadServerNames( ) 


double getAverageLoad() 


int getRegionsCount() 


int getRequestsCount() 


String getHBaseVersion() 


byte getVersion() 


String getClusterId() 


Map<String, RegionState> 
getRegionsInTransition( ) 


HServerLoad getLoad(ServerName sn) 


当前 处 于 不 可 用 状态 的 region 服 务 器 
的 列表 ， 包 括 region 服 务 器 的 服务 
记 、RPC 端 口 等 


平均 每 台 region 服 务 器 上 线 了 多 少 
region， 该 方法 类 似 于 
getRegionsCount() 


iTregion 的 总 娄 


集群 的 请 求 TPS 


返回 当前 集群 的 软件 编译 


返回 clusterstatus 实例 的 版 本 号 ， 
通过 序列 化 的 方式 在 RPC 阶 段 传输 


返回 集群 的 唯一 标识 。 这 个 值 是 集群 
第 一 次 启动 时 通过 UUID 生 成 的 ， 存 
录 下 的 hbase.id 中 


返回 当前 集群 正在 进行 处 理 的 region 

J 事务 列表 ， 即 移动 操作 、 上 线 操作 
线 操作 。 键 是 编码 后 的 region 名 

|HRegTonInfo. getEncodeName( ) 返 
， 值 是 Regionstate a 的 实例 


给 定 region 服 务 器 的 当前 负载 状 


况 


用 户 通 过 查看 集群 状态 可 以 在 较 高 层次 上 看 到 集群 的 整体 情况 。 
用 户 查 看 使 用 getServers( ) 方法 返回 的 ServerName 实例 能 够 获取 
所 及 前 处 于 可 用 状态 的 服务 恬 的 实际 信息 。 表 5-5 罗 列 了 所 有 的 可 用 
法 


ie) 


表 5-5 ServerName 提供 信息 概览 


string 返回 服务 器 的 域名 ， 如 果 域 名 不 可 用 会 直接 返回 了 了 地 址 


getHostname( ) 


String 返回 域名 与 RPC 端 口 的 合并 字符 串 ， 用 “: “orbs, BO, 


getHostAndPort() <hostname>:<rpc-port> 


long 服务 器 启动 的 时 间 ， 单 位 是 宫 秒 ， 使 用 
getStartcode() System.currentTimeMillis() 进行 获取 


String 获取 服务 器 名 ， 服务 器 名 是 <hostname> ` <rpc-port> 和 <start- 
getServerName() code> 的 组 


mH RPCH 


通过 提供 HServerLoad 实例 ， 每 台 region 服 务 右 可 以 提供 它们 的 
负载 信息 。 用 户 调用 ClusterStatus 实例 的 getLoad( ) 方法 可 以 获 
取 HServerLoad 实例 。 使 用 上 面 提 到 的 ServerName ， 通 过 
getServers( ) 方 法 可 以 获取 并 迭代 访问 服务 器 的 信息 ， 而 当前 提 到 
的 HServerLoad 不 仅 提 供 了 服务 器 本 身 的 信息 ， 还 提供 了 每 台 服 务 履 
管理 的 region 的 信息 。 表 5-6 列 出 了 所 有 可 用 方法 。 


表 5-6 HServerLoad 提供 信息 概览 


byte getVersion() 


getLoad() 


getNumberOfRegions() 


getNumberOfRequests() 


getUsedHeapMB( ) 


getMaxHeapMB( ) 


getStorefiles() 


getStorefileSizeInMB( ) 


int 
getStorefileIndexSizeInMB( ) 


int getMemStoreSizeInMB() 


Map<byte[] , RegionLoad> 
getRegionsLoad( ) 


HServerLoad 的 版 本 号 ，RPC 序 列 化 进程 时 会 用 
到 这 个 参数 


F getNumberOfRegions() 的 返 回 值 


当前 region 服 务 器 上 线 的 region 数 量 


T 个 周期 内 的 TPS， 周 期 可 以 
通过 参数 hbase. regionserver. msginterval 来 设 定 
请 求 数 会 在 一 个 周期 结束 后 清 零 ， 它 会 统计 所 有 的 


API 请 求 ， 如 get、put、increment、delete 等 


JVM 最 大 可 使 用 内 存 ， 单 位 为 MB 


当前 region 服 务 器 的 存储 文件 数量 ， 即 包括 这 个 服 
务 器 管理 的 所 有 region 


当前 region 服 务 器 的 存储 文件 的 总 存储 量 
MB 


当前 region 服 务 器 的 存储 文件 的 索引 大 小 ， 单 包 
MB 


当前 region 服 务 器 的 已 用 写 缓存 的 大 小 ， 包 括 这 个 
region 服 务 器 上 所 有 的 region 


返回 当前 region 服 务 器 中 每 个 region 的 负载 情况 ， 以 
Map 的 形式 返回 , ee D 值 是 之 前 讨论 过 
的 RegionLoad 实例 


最 后 ， 我 们 来 讨论 这 个 专用 类 RegionLoad 。 表 5-7 列 出 了 所 有 可 
用 信息 。 


325-7 RegionLoad 提供 信息 概览 


返回 region 名 ， 以 原始 的 二 进 制 byte BZ 
将 二 进 制 region 名 转换 为 字符 串 并 返回 

iregion 的 存储 文件 数量 
当前 region 的 存储 文 从 


int 当前 region 的 存储 文件 的 索引 信息 的 大 小 ，MB 为 和 


getStorefileIndexSizeMB() 位 


egion 全 用 enstore 的 大 小 ， 单 位 
regionot OMNIS 
egion 的 本 大 统计 周期 的 Qps 
“region A ORAS 


例 5.6 展 示 了 所 有 可 用 的 getter 方 法 。 


例 5.6 ”获取 集群 状态 


HBaseAdmin admin = new HBaseAdmin(conf); 


ClusterStatus status = admin.getClusterStatus();@ 


System.out.printin("Cluster Status: \n-------------- ); 
System.out.println("HBase Version: " + status.getHBaseVersion()); 
System.out.println("Version: " + status.getVersion()); 
System.out.println("No. Live Servers: " + status.getServersSize()); 
System.out.println("Cluster ID: " + status.getClusterId()); 
System.out.println("Servers: " + status.getServers()); 
System.out.printin("No. Dead Servers: " + status.getDeadServers( 
System.out.printlin("Dead Servers: " + status.getDeadServerNames ( 
System.out.println("No. Regions: " + status.getRegionsCount()); 
System.out.println("Regions in Transition: " + 
status.getRegionsInTransition()); 
System.out.printin("No. Requests: " + status.getRequestsCount()); 
System.out.printin("Avg Load: " + status.getAverageLoad()); 


)); 
)); 


System.out.println("\nServer Info:\n-------------- Tya 

for(ServerName server : status.getServers()){ © 
System.out.println("Hostname: " + server.getHostname()); 
System.out.println("Host and Port: " + server.getHostAndPort()); 
System.out.println("Server Name: " + server.getServerName()); 
System.out.println("RPC Port: " + server.getPort()); 
System.out.println("Start Code: " + server.getStartcode()); 


HServerLoad load = status.getLoad(server);® 


System.out.println("\nServer Load:\n-------------- 

System.out.println("Load: " + load.getLoad()); 

System.out.println("Max Heap(MB): " + load.getMaxHeapMB() ); 

System.out.printin("Memstore Size(MB): " + 

load.getMemStoreSizeInMB()); 

System.out.printin("No. Regions: " + load.getNumberOfRegions()); 

System.out.printin("No. Requests: " + load.getNumberOfRequests()); 

System.out.printin("Storefile Index Size(MB): " + 
load.getStorefileIndexSizeInMB()); 

System.out.println("No. Storefiles: " + load.getStorefiles()); 

System.out.printin("Storefile Size(MB): " + 

load.getStorefileSizeInMB()); 

System.out.println("Used Heap(MB): " + load.getUsedHeapMB() ); 


System.out.println("\nRegion Load: \n-------------- dd 

for(Map.Entry< byte[],HServerLoad.RegionLoad> entry : @ 
load.getRegionsLoad().entrySet()){ 
System.out.println("Region: " + 

Bytes.toStringBinary(entry.getKey())); 


HServerLoad.RegionLoad regionLoad = entry.getValue();® 


System.out.println("Name: " + Bytes.toStringBinary( 
regionLoad.getName())); 

System.out.println("No. Stores: " + regionLoad.getStores()); 

System.out.printin("No. Storefiles: " + 

regionLoad.getStorefiles()); 

System.out.printin("Storefile Size(MB): " + 
regionLoad.getStorefileSizeMB()); 

System.out.printin("Storefile Index Size(MB): " + 
regionLoad.getStorefileIndexSizeMB()); 


System.out.println("Memstore Size(MB): " + 
regionLoad.getMemStoreSizeMB()); 

System.out.printin("No. Requests: " + regionLoad. 

getRequestsCount()); 

System.out.printiln("No. Read Requests: " + 
regionLoad.getReadRequestsCount()); 

System.out.printin("No. Write Requests: " + 


regionLoad.getWriteRequestsCount()); 
System.out.println(); 


} 
} 


@ 获 取 ClusterStatus 实例 以 获得 集群 状态 。 


@ 达 代 所 有 服务 郁 的 信息 。 

四 获取 当前 服务 硕 负 载 信息 。 

OSRH RA a A region tA E ° 

@ 获 得 当前 region 的 负载 信息 。 

如 琳 以 单机 模式 局 动 ， 并 用 这 本 书 早期 的 例子 ， 可 以 看 到 如 下 信 


Avg Load: 12.0 
HBase Version: 0.91.0-SNAPSHOT 
Version: 2 


No. Servers: [10.0.0.64, 60020, 1304929650573 | 
No. Dead Servers: 0 
Dead Servers: [] 


No. Regions: 12 
No. Requests: 0 


Server Info: 

Hostname: 10.0.0.64 

Host and Port: 10.0.0.64:60020 

Server Name: 10.0.0.64, 60020, 1304929650573 
RPC Port: 60020 

Start Code: 1304929650573 


Server Load: 

Load: 12 

Max Heap(MB): 987 

Memstore Size(MB): 0 

No. Regions: 12 

No. Requests: 0 

Storefile Index Size(MB): 0 
No. Storefiles: 3 

Storefile Size(MB): 0 

Used Heap(MB): 62 


Region Load: 

Region: -ROOT-,,0 
Name: -ROOT-,,0 

No. Stores: 1 

No. Storefiles: 1 
Storefile Size(MB): 0 
Storefile Index Size(MB): 0 
Memstore Size(MB): 0 
No. Requests: 52 

No. Read Requests: 51 
No. Write Requests: 1 


Region: .META.,,1 

Name: .META.,,1 

No. Stores: 1 

No. Storefiles: 0 

Storefile Size(MB): 0 
Storefile Index Size(MB): 0 
Memstore Size(MB): 0 

No. Requests: 4764 

No. Read Requests: 4734 

No. Write Requests: 30 


Region: hush, , 1304930393059. 1ae3ea168c42fa9c855051c888ed36d4. 
Name: hush, , 1304930393059. 1ae3ea168c42fa9c855051c888ed36d4. 
No. Stores: 1 

No. Storefiles: 0 


Storefile Size(MB): 0 
Storefile Index Size(MB): 0 
Memstore Size(MB): 0 

No. Requests: 20 

No. Read Requests: 14 

No. Write Requests: 6 


Region: ldom, , 1304930390882 .520fc727a3ce79749bcbbad51e138f fF. 
Name: ldom, , 1304930390882 .520fc727a3ce79749bcbbad51e138f FF. 
No. Stores: 1 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 14 

No. Read Requests: 6 

No. Write Requests: 8 


Region: sdom, , 1304930389795. 4a49f5ba47e4466d284cea27629C26cc. 
Name: sdom, , 1304930389795. 4a49f5ba47e4466d284cea27629C26cc. 
No. Stores: 1 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 8 

No. Read Requests: 0 

No. Write Requests: 8 


Region: surl, , 1304930386482 .c965c89368951cf97d2339a05bc4bad5. 
Name: surl, , 1304930386482 .c965c89368951cf97d2339a05bc4bad5. 
No. Stores: 4 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 1329 

No. Read Requests: 1226 

No. Write Requests: 103 


Region: testtable, , 1304930621191 .962abda0515c910ed91f7520e71ba101. 
Name: testtable, , 1304930621191 .962abda0515c910ed91f7520e71ba101. 
No. Stores: 2 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 29 

No. Read Requests: 0 

No. Write Requests: 29 


Region: testtable, row- 

030, 1304930621191 . 0535bb40b407321d499d65bab9d3b2d7. 
Name: testtable, row- 

030, 1304930621191 . 0535bb40b407321d499d65bab9d3b2d7. 
No. Stores: 2 

No. Storefiles: 2 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 6 

No. Read Requests: 6 

No. Write Requests: 0 


Region: testtable, row- 

060, 1304930621191 .81b04004d72bd28cc877cb1514dbab35. 
Name: testtable, row- 

060, 1304930621191 .81b04004d72bd28cc877cb1514dbab35. 
No. Stores: 2 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 41 

No. Read Requests: 0 

No. Write Requests: 41 


Region: url, , 1304930387617 .a39d16967d51b020bb4dad13a80al1a02. 
Name: url, , 1304930387617 .a39d16967d51b020bb4dad13a80a1a02. 
No. Stores: 1 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 11 

No. Read Requests: 8 

No. Write Requests: 3 


Region: user, , 1304930388702 .60bae27e577a620ae4b59bc830486233. 
Name: user, , 1304930388702 .60bae27e577a620ae4b59bC830486233. 
No. Stores: 1 

No. Storefiles: 0 

Storefile Size(MB): 0 

Storefile Index Size(MB): 0 

Memstore Size(MB): 0 

No. Requests: 11 

No. Read Requests: 9 

No. Write Requests: 2 


Region: user-surl, , 1304930391974. 71b9cecc9c111a5217bd1a81bde60418. 
Name: user-surl, , 1304930391974. 71b9cecc9c111a5217bd1a81bde60418. 
No. Stores: 1 


No. Storefiles: 0 

Storefile Size(MB): 0 
Storefile Index Size(MB): 0 
Memstore Size(MB): 0 

No. Requests: 24 

No. Read Requests: 21 

No. Write Requests: 3 


© 见 维基 百科 中 的 “Database Normalization” ( 
http://en.wikipedia.org/wiki/Database_normalization ) ° 


@ 在 Java 中 Gettersgetter 和 Setterssetter， 可 以 使 一 个 类 的 内 部 变量 变 得 
可 控 ， 情 况 方 法 通常 下 方法 以 这 个 变量 的 名 字 加 上 get 和 set 为 前 级 来 命 
Z, 例如，getName() 和 setName( ) 方法 。 


© A 问题 造成 的 元 余 ， 请 帮忙 清理 并 贡献 到 
HBase™ ° 


© 见 维基 百科 中 的 “Bloom filter — H” ( 
http://en.wikipedia.org/wiki/Bloom_filter ) 。 
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HBase 面 对 不 同 的 编程 语言 拥有 不 同 的 客户 端 。 ANSE RNA 
a HIJA Y ° 


6.1 REST、Thrift 和 Avro 的 介绍 


访问 HBase 的 均 是 目前 比较 流行 的 编程 语言 和 环境 。 用 户 可 以 直接 
使 用 HBase 客 户 闪 API， 或 者 使 用 一 些 能 够 将 请 求 转换 成 API 调 用 的 代 
理 。 这 些 代理 将 原生 Java API 包 大 成 其 他 协议 ， 这 样 客户 端 可 以 使 用 
API 提 供 的 任意 外 部 语言 来 编写 程序 。 通 党 来 说 ， 外 部 API 实 现 了 专门 
基于 Java 的 服务 ， 而 这 种 服务 能 够 在 内 部 使 用 由 HTable 客 户 端 捉 供 的 
API。 这 种 方式 商 化 了 网 关 服 务 需 的 实现 和 维护 。 


客户 端 与 网 关 之 间 的 协议 是 由 当前 可 用 选择 以 及 远程 客户 端的 需 
求 决定 的 。 最 常用 的 就 是 REST (Representational State Transfer, #ewi 
性 状态 转移 ) © ， 其 基于 现 有 网 络 技术 。 实 际 的 传输 是 典型 的 HTTP 协 
议 一 一 它 是 Web 应 用 的 标准 传输 协议 。 由 于 协议 层 负 员 传 输 可 互 操作 格 
式 的 数据 ， 这 使 得 REST 成 为 异 构 系统 之 间 传 输 数 据 的 理想 选择 。 

REST 目 定义 了 语义 ， 这 样 协议 就 可 以 被 用 来 以 普通 的 方式 定位 远 
程 服 务 的 资源 。 不 改变 REST 的 协议 ，REST 可 以 直接 兼容 现 有 的 技 
术 ， 例 如 ，Web 服 务 和 代理 。 资 源 作为 请 求 URI 的 一 部 分 是 唯一 确定 
- 这 定义 了 一 个 新 协议 的 标准 ， 但 这 跟 基 于 SOAP 2 的 服务 完全 相 


REST 与 SOAP 协 议 都 面临 见长 的 协议 等 级 。 客 户 闻 与 服务 右 端 间 
的 通信 协议 是 可 读 的 简单 文本 或 者 基于 XML 的 文本 ， 数 据 在 网 络 传输 
前 进行 透明 压缩 可 以 一 定 程度 上 缓解 这 个 问题 。 


尤其 在 拥有 大 规模 集群 的 公司 中 ， 巨 额 的 珊 贤 消费 和 许多 相互 隔 
离 的 服务 ， 让 人 觉得 需要 减少 开销 并 实现 自己 的 RPC 层 。Google 就 是 其 
中 之 一 ， 他 们 开发 了 Protocol Buffer 框 架 2 。 由 于 最 初 的 实现 没有 发 
布 ，Facebook 就 开发 了 一 套 类 似 的 版 本 ， 叫 做 Thrift ” 。 随 后 ，Hadoop 


项 目 创建 者 启动 了 第 3 个 项 目 ， 叫 做 Apache Avro® ， 提 供 了 另 一 种 可 
选 的 实现 。 

这 些 框架 都 有 类 似 的 特性 集 ， 它 们 能 够 支持 大 量 的 语言 ， 而 且 或 
多 或 少 能 够 提升 编码 的 效率 。Protocol Buffer 与 Thrift 和 Avro 之 间 最 大 的 
不 同 是 ， 它 没有 自己 的 RPC 堆 ， 而 它 生成 的 RPC 定 义 需 要 被 后 来 其 他 的 
RPC 库 使 用 。 

HBase 提 供 了 REST、Thrift、Avro 的 辅助 服务 。 它 们 可 以 被 实现 成 
专门 的 网 关 服 务 ， 这 些 服 务 可 以 运行 在 专 有 的 或 共享 的 机 器 中 。 因 为 
Thrift 与 Avro 都 有 各 上 自 的 RPC 实 现 ， 所 以 网 关 服务 仅仅 是 在 它们 的 基础 
上 进行 了 封装 。 至 于 REST，HBase 则 采用 了 自己 的 实现 ， 并 提供 了 访 
问 存 储 数据 的 途径 。 
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心事 实 上 ，REST 服 务 器 支持 Protocol Buffer, Protocol 
Buffer 能 够 利用 HTTP 协 议 的 Accept 首 部 来 发 送 和 接受 被 
Protocol Buffer 编 码 过 的 数据 ， 而 不 用 另外 实现 RPC 服 务 。 详 
情 见 6.2.2 节 。 


图 6-1 展 示 了 远程 客户 端 如 何 使 用 已 提供 的 端点 访问 专门 的 网 天 服 


务 


这 些 服务 内 部 直接 使 用 基于 HTable 的 客户 端 API 来 访问 表 。 用 户 

能 看 见 它们 如 何 从 region 服 务 器 的 顶端 开始 处 理 ， 以 及 共享 相同 的 物理 

ee 用 户 可 以 把 它们 部 嗜 到 
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另 一 种 方法 是 直接 在 客户 端 世 点 运行 网 关 服 务 ， 例 如 ， 用 户 的 网 
页 服务 使 用 PHP 构 建 HTML 页面 ， 这 更 有 利于 在 同一 台 物 理 机 中 运行 网 
天 服务 与 Web 服 务 。 这 种 方式 下 ， 客 户 问 与 服务 紫 病 的 通信 和 是 本 地 通 
信 ， 因 此 网 关 与 HBase 之 间 的 RPC 协 议 是 原生 协议 。 


心 


4 从 客户 端 连接 HBase 时 要 格外 小 心地 检查 ， 网 关 服 


务 要 部 署 在 恰当 的 物理 机 上 。 网 关 服 务 的 性 能 会 被 当前 机 器 
的 负载 和 网 络 传 输 数 据 量 所 影响 ， 因 此 要 确认 那些 不 等 待 资 


宽 的 使 用 。 


源 的 进程 ， 例 如 ，CPU 时 钟 周期 ， 以 及 网 络 带 


图 6-1 客户 端 通过 网 关 服 务 器 进行 连接 


每 个 请 求 使 用 一 个 服务 而 非 建立 一 个 新 连接 的 优势 要 奶 调 到 4.5 节 
一 一 用 户 需 要 复 用 连接 来 获得 最 优 性 能 。 生 存 期 短 的 进程 将 在 建立 连 
接 以 及 准备 元 数据 上 人 花费 更 多 的 时 间 ， 而 非 在 其 实际 操作 上 人 花费 时 

间 。 尤 其 是 服务 器 端 缓存 着 region 的 位 置信 息 ， 这 使 得 复 用 非常 重要 ， 

否则 每 个 客户 端 都 将 进行 一 次 完整 的 从 行 到 region 的 逐 字 市 的 查找 来 获 
取 它 们 想 要 的 信息 。 


tPF RAL DS ce — al ESS, PRTA BY 
实际 场景 。 如 条 只 有 一 种 选择 ， 目 然 没 有 必要 纠结 使 用 3 个 不 同 的 网 天 
机 来 服务 。 在 REST 以 及 更 有 效率 的 Thrift 中 ， 初 始 化 参数 或 者 相似 的 序 
列 化 格式 都 表明 在 高 吞吐 量 场景 中 ， 纯 二 进 制 格式 具有 优势 。 从 另 一 
方面 来 说 ， 如 琳 用 户 仅 有 少许 的 请 求 ， 但 是 数据 量 比较 大 ， 那 么 REST 
是 比 较 合 适 的 。 大 致 的 场景 分 类 如 下 所 示 。 


REST 场 景 


REST 文 持 现 有 的 基于 Web 的 体系 ， 它 能 够 完美 地 融合 反 癌 代理 和 
其 他 缓存 技术 。 并 行 运 行 许多 REST 服 务 可 以 分 摊 它们 之 间 的 负载 。 例 
如 ， 用 户 可 以 在 每 台 拥有 的 应 用 服务 器 中 运行 REST， 创 建 一 个 单 点 应 
用 到 服务 (single-app-to-server) 的 关系 。 


Thrift/Avro 场 景 


当 用 户 从 吞吐 量 的 角度 考虑 需要 的 最 佳 性 能 时 ， 可 以 使 用 严谨 的 
二 进 制 协议 。 用 户 可 以 运行 较 少 的 服务 ， 例 如 ， 在 多 应 用 服务 (many- 
app-to-server ) 的 基数 下 ， 每 个 region 服 务 器 运行 一 个 服务 。 


6.2 ”交互 客户 端 


第 一 组 客户 端 是 具有 交互 性 (interactive) 的 一 组 ， 它 们 按 需 发 送 
客户 端 API 调 用 到 服务 器 端 ， 例 如 ，get、put 和 delete 探 作 。 基 于 用 户 可 
选择 的 协议 ， 用 户 可 以 使 用 提供 的 网 关 服务 来 获得 从 应 用 程序 访问 服 


务 的 途径 。 


6.2.1 原生 Java 


第 3 章 和 第 4 章 有 关于 原生 Java API 的 详细 描述 。 在 很 多 场景 中 ， 用 
户 可 以 直接 使 用 Htable 并 通过 原生 的 RPC 调 用 与 HBase 服 务 器 进行 交 
互 ， 而 不 需要 开局 网 关 服 务 。 人 参见 提 到 的 章节 来 实现 一 个 原生 Java 客 户 


端 。 


6.2.2 REST 
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管理 API。 此 外 ， 它 还 提供 了 不 同 的 消 因 格式， 客户 端 可 以 灵活 选择 用 
于 应 用 程序 与 服务 器 端 之 间 交 互 的 消息 格式 。 


1. 操作 
基于 REST 服 务 的 客户 端 在 能 够 与 HBase 通 信之 前 需要 先 启动 REST 


网 关 服 务 。 这 个 工作 可 以 由 已 提供 的 脚本 来 完成 。 下 面 的 命令 展示 了 
如 何 获得 命令 行 帮助 ， 然 后 局 动 一 个 非 守护 进程 模式 的 REST 服 务 霹 : 


$ bin/hbase rest 
usage: bin/hbase rest start [-p < arg>] [-ro] 
-p,--port < arg> Port to bind to [default: 8080] 
-ro, --readonly Respond only to GET HTTP method requests 
[default: 
false] 


To run the REST server as a daemon,execute bin/hbase-daemon.sh 


start|stop 
rest [-p < port>] [-ro] 


$ bin/hbase rest start 


AC 


用 户 需 要 按 Ctrl+C 组 合 键 退出 进程 。 帮 助 信 息 展 示 了 用 户 需 要 通过 
不 同 的 脚本 局 动 后 台 进 程 : 


$ bin/hbase-daemon.sh start rest 


starting rest,logging to /var/lib/hbase/logs/hbase-larsgeorge-rest - 
< servername>.out 


一 旦 网 关 服务 启动 后 ， 用 户 可 以 在 命令 行 中 运行 cunl @ 来 检查 它 是 
否 正 常 运行 : 


$ curl http://:8080/ 


testtable 


$ curl http://< servername>:8080/version 


rest 0.0.2 [JVM: Apple Inc. 1.6.0_24-19.1-b02-334] [0S: Mac OS X 
10.6.7 \ 
x86_64] [Server: jetty/6.1.26] [Jersey: 1.4] 


输入 根 路 径 的 URL， 例 如 ，/ 可 以 返回 当前 可 用 表 的 表 名 列表 ， 在 
这 里 是 testtable 。 使 用 /version 可 以 检索 当前 REST 服 务 器 的 版 
本 ， 以 及 正在 运行 它 的 机 器 的 详细 ”信息 。 


如 果 需 要 停止 REST 服 务 器 ， 可 以 执行 与 启动 类 似 的 命令 ， 但 需要 
将 start 替换 为 stop : 


$ bin/hbase-daemon.sh stop rest 


stopping rest.. 


REST 服 务 器 提供 了 HBase 表 提供 的 所 有 操作 。 


RA 
一 一 当前 REST 的 在 线 文档 地 址 是 
http:/hbase.apache.org/apidocs/org/apache/hadoop/hbase/rest/p 
ackage-summary.html 。 请 参阅 文档 中 提供 的 操作 ， 并 仔细 阅 
读 那 个 页 面 的 XML 模式 ， 它 解释 了 用 户 请 求 信息 时 需要 使 用 
的 模式 ， 以 及 服务 返回 的 信息 。 


用 户 可 以 根据 自己 的 喜好 启动 任意 数量 的 REST 服 务 ， 并 且 可 以 使 
用 负载 均衡 器 来 路 由 它们 。 因 为 每 台 REST 服 务 都 是 无 状态 的 一 一 任何 
部 分 ， 用 户 可 以 采用 轮 询 或 类 似 的 算法 来 做 负 
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最 后 ， 使 用 -p 或 - -port 参数 可 以 指定 REST 服 务 的 监听 端口 ， 默 
认为 8080。 


2. 支持 的 格式 
通过 使 用 HTTP Content -Type 和 Accept 头 ， 调 用 者 可 以 自由 


选择 发 送 和 接收 信息 的 数据 格式 。 例 如 ， 用 户 可 以 使 用 类 似 如 下 的 
Shell 脚 本 命令 在 HBase 中 创建 表 且 插入 列 : 


hbase(main):001:0> create 'testtable', 'colfam1' 


© row(s)in 1.1790 seconds 


hbase(main) :002:0>put'testtable',"\x01\x02\x03", 'colfam1:col1i', 'val 


© row(s)in 0.0990 seconds 


hbase(main):003:0> scan 'testtable' 


ROW COLUMN+CELL 

\x01\x02\x03 
column=colfami:coli, timestamp=1306140523371, value=value1 
1 row(s)in 0.0730 seconds 


搬入 一 行使 用 了 二 进 制 的 行 键 0x01 0x02 0x03 (十 六 进 制 
数 ) ， 其 中 指定 一 个 列 族 中 的 一 个 列 ， 值 为 value1 。 


Plain (text/plain) 。 用 户 可 以 在 一 些 操作 中 指定 以 文本 格式 返回 
数据 。 例 如 ， 前 面 提 到 的 /version 操作 : 


$ curl -H "Accept: text/plain" http://< servername>:8080/version 


rest 0.0.2 [JVM: Apple Inc. 1.6.0_24-19.1-b02-334] [0S: Mac OS X 
10.6.7 \ 
x86_64] [Server: jetty/6.1.26] [Jersey: 1.4] 


另 一 方面 ， 对 于 比较 复杂 的 返回 值 ， 纯 文本 格式 很 难 达到 预期 的 


$ curl -H "Accept: text/plain" \ 


http://< servername>:8080/testtable/%01%02%03/colfami:col1 


< html> http://< servername>:8080/testtable/%01%02%03/colfami:col1 


< head> 

< meta http-equiv="Content-Type" content="text/html;charset=ISO- 
8859- 1"/> 

< title>Error 406 Not Acceptable< /title> 

< /head> 

< body>< h2>HTTP ERROR 406< /h2> 

< p>Problem accessing /testtable/%01%02%03/colfami:col1. Reason: 

< pre> Not Acceptable< /pre>< /p>< hr />< i>< small>Powered by 
Jetty: //< /small> < /i>< br/> 

< br/> 


< /body> 
< /html> 
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的 文本 ， 用 户 需 要 使 用 一 种 能 够 表达 自身 笛 套 的 格式 。 


——* 使 用 前 面 提 到 的 已 创建 的 表 ， 行 键 由 长 度 为 3 的 二 
进 制 字 节 数组 组 成 ， 用 户 通过 REST 方 式 访问 这 行 数据 就 需 
要 依赖 URL 编 码 了 ， 解 析 后 的 数据 为 %01%02%03 。 单 元 格 
查询 的 完整 URL 如 下 : 


http://< servername> 


:8080/testtable/%01%02%03/colfam1:col1 


详细 语法 可 在 在 线 文 档 中 查阅 。 


XML (text/xml) 。 默认 的 存储 与 查询 格式 是 XML。 例 如 ， 如 果 
没有 指定 Accept 头 ， 用 户 收 到 的 信息 如 下 : 


$ curl http://< servername>:8080/testtable/%01%02%03/colfami:col1 


< ?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
< CellSet> 
< Row key="AQID"> 
< Cell timestamp="1306140523371" \ 
column="Y29sZmFtMTpjb2wx">dmFsdwUx< /Cell> 
< /Row> 


< /CellSet> 


默认 的 数据 返回 格式 是 XML ， 列 名 与 值 都 经 过 了 Base64 © 编码 ， 
详细 解释 见 在 线 模 式 文档 。 以 下 是 解释 片段 : 


< complexType name="Row"> 
< sequence> 
< element name="key" type="base64Binary">< /element> 
< element name="cell" type="tns:Cell" maxOccurs="unbounded" \ 
minOccurs="1">< /element> 
< /sequence> 
< /complexType> 


< element name="Cell" type="tns:Cell">< /element> 


< complexType name="Cell"> 
< sequence> 
< element name="value" maxOccurs="1" minOccurs="1"> 
< simpleType>< restriction base="base64Binary"> 
< /simpleType> 
< /element> 
< /sequence> 
< attribute name="column" type="base64Binary" /> 
< attribute name="timestamp" type="int" /> 
< /complexType> 


REST 服 务 絮 返回 的 值 都 经 过 Sd E ek 这 些 返 回 
值 都 能 包含 在 键 或 者 值 中 ， 以 二 进 制 数据 形式 进行 安全 传输 。 


eke 
客户 端 癌 REST 服 务 发 送 的 数据 也 经 过 了 安全 


0 
络 传输 内 容 ， 即 实际 的 值 、 列 名 、 行 键 等 。 


我 们 可 以 使 用 base64 命令 在 控制 台 做 一 个 快速 测试 : 


$ echo AQID | base64 -d | hexdump 


0000000 01 02 03 


$ echo Y29sZmFtMTpjb2wx | base64 -d 


colfam1:col1 


$ echo dmFsdWUx | base64 -d 


valueil 


这 明显 仅 在 命令 行 的 验证 中 有 用 ， 对 于 用 户 的 代码 来 说 ， 用 户 可 
以 使 用 任意 一 个 可 用 的 Base64 编 码 实现 来 解码 返回 值 。 


JSON (application/json) 。 JSON 是 类 似 于 XML 的 格式 ， 发 送 请 
求 时 在 头 部 设置 JSON 格 式 即 可 : 


$ curl -H "Accept: application/json" \ 


http://< servername>:8080/testtable/%01%02%03/colfami1:col1 


{ 
"Row": [{ 
"key" : "AQID", 
"Cell": [{ 


"timestamp": 1306140523371, 
"column": "Y29SZmFtMTpjb2wx", 
"$": "dmFsdwux" 
}] 
}] 


wa, 
BAX 
a 地、 + 
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CE 上面 提 到 的 JSON 格 式 的 结果 经 过 重新 格式 化 后 更 
容易 阅读 ， 通 常 返回 结果 在 控制 台中 独立 显示 的 一 行 ， 例 
如 : 


{"Row": [{"key":"AQID", "Cell": [ftimestamp" :1306140523371， 


"column": \"Y29sZmFtMTpjb2wx", "$":"dmFsdwux"}]}] } 


编码 之 后 的 值 类 似 于 XML， 例 如 ，Base64 可 以 编码 任何 包含 二 进 
制 数据 的 值 。 不 同 之 处 在 于 ， 与 XML 格 式 相 比 ，JSON 格 式 不 包含 无 名 
字 的 数据 字段 。 在 XML 格式 中 ， 一 个 单元 格 的 标 答 是 Cel，JSON 格 式 
指定 了 键 / 值 对 ， 因 此 没有 可 用 的 标签 。 由 于 这 个 原因 ，JSON 格 式 中 有 
特殊 的 字段 “$” (美元 符号 ) ， 美 元 符号 对 应 的 值 就 是 XML 格式 中 单元 
| 应 的 值 。 从 上 面 的 例子 中 ， 用 户 可 以 看 到 正在 使 用 以 下 代 


"gM." dmESdWUX" 


a 户 可 以 获取 美元 符号 对 应 的 字段 值 ， 从 而 得 到 经 过 Base64 编 码 


Protocol Buffer (application/x-protobuf) 。 一 个 非常 有 趣 的 
REST 应 用 是 天 于 切换 编码 的 。 由 于 Protocol Buffer 并 不 依赖 本 地 RPC 
栈 ， 因 此 HBase REST 服 务 器 提供 了 对 这 种 编码 格式 的 支持 。 用 户 可 以 
详细 查阅 在 线 文档 来 了 解 具体 模式 。 


获得 以 Protocol Buffer 编 码 的 返 需要 匹配 Accept 头 : 


$ curl -H "Accept: application/x-protobuf" \ 


http://< servername>: 8080/testtable/%01%02%03/colfami:col1 | 
hexdump -C 


00000000 Oa 24 Oa 03 01 02 03 12 1d 12 Oc 63 6f 6c 66 61 
DD colfa| 

00000010 6d 31 3a 63 6f 6c 31 18 eb f6 aa e0 81 26 22 06 
|m1:col1 

00000020 76 61 6c 75 65 31 

|value1| 


使 用 hexdump 可 以 打印 编码 后 的 二 进 制 格式 信息 ， 不 过 用 户 需 
使 用 Protocol Buffer 解 码 絮 才能 将 其 解析 成 结构 化 数据 。 在 上 面 的 例子 
中 ，ASCII 在 右边 打印 出 示例 行 的 列 名 和 单元 格 的 值 。 


Raw Binary (application/octet-stream) 。 最后， H, 户 可 以 按照 原 
台 形 式 转 存 数 据 ， 同 时 忽略 结构 化 数据 。 通 过 下 面 的 命令 行 ， 只 有 存 
储 在 单元 格 内 的 数据 被 返回 。 


$ curl -H "Accept: application/octet-stream" \ 


http://< servername>: 8080/testtable/%01%02%03/colfami:col1 | 
hexdump -C 


00000000 76 61 6c 75 65 31 
| valuet | 


18" 根据 格式 要 求 ，REST 服 务 器 可 以 将 结构 化 的 数据 
插入 自 定义 的 头 部 。 例 如 ， 按 上 述 设 置 之 后 ， 头 部 结构 如 下 
(增加 -D- 到 curl 命令 中 ) : 


HTTP/1.1 200 OK 
Content-Length: 6 


X-Timestamp: 1306140523371 
Content-Type: application/octet-stream 


单元 格 中 的 时 间 惟 已 经 移动 到 头 部 ， 例 如 ，X- 
Timestamp 。 因 为 行 键 和 列 键 是 请 求 的 URI 中 一 部 分 ， 但 它 
们 在 响应 的 时 候 不 再 返回 ， 因 此 节省 了 不 必要 的 网 络 传输 。 


3. RESI 的 Java 客 户 端 


REST 服 务 器 同样 有 全 面 的 Java 客 户 端 API， 位 于 
org.apache.hadoop.hbase.rest.client 
包 中 。 其 中 的 核心 类 是 RemoteHTable 和 RemoteAdmin 。 例 6.1 展 示 
了 RemoteHTable 类 的 使 用 实例 。 


例 6.1 REST 客 户 端 类 的 使 用 实例 


Cluster cluster = new Cluster(); 
cluster.add("localhost", 8080) ;@ 


Client client = new Client(cluster);@ 


RemoteHTable table = new RemoteHTable(client,"testtable");© 


Get get = new Get(Bytes.toBytes("row-30"));® 
get .addColumn(Bytes.toBytes("colfami"),Bytes.toBytes("col-3")); 
Result result1 = table.get(get); 


System.out.println("Get result1: " + result1); 


Scan scan = new Scan(); 
scan.setStartRow(Bytes.toBytes("row-10")); 
scan.setStopRow(Bytes.toBytes("row-15")); 
scan.addColumn(Bytes.toBytes("colfami"),Bytes.toBytes("col-5")); 
ResultScanner scanner = table.getScanner(scan);® 


for(Result result2 : scanner) { 
System.out.println("Scan row[" + 

Bytes. toString(result2.getRow())+ 
"]: " + result2); 

} 


@ 设 置 已 知 的 REST 上 服务 絮 集 群 地 址 列表 。 


@ 创 建 处 理 HTTP 交 互 的 客户 端 。 


© f|ZRemoteHTable 实例 ， 将 REST 访 问 封 装 到 一 个 熟悉 的 接口 
中 o 


@ 执 行 一 个 get ( ) 操作 ， 如 同 直接 连接 HBase 的 操作 。 

@ 扫 描 表 ， 然 后 就 像 使 用 原生 Java API 一 样 进 行 调用 。 

上 述 的 例子 需要 在 本 机 中 已 经 运行 了 REST 服 务 器 ， 并 监听 了 特定 
端口 。 如 果 在 其 他 机 器 或 其 他 端口 中 已 邓 运 行 了 REST 上 服务器- 用 户 需 
要 首先 将 服务 地 址 新 增 到 Cluster 实例 中 。 


以 下 是 上 述 例子 在 运行 过 程 中 打印 到 控制 台 的 信息 : 


Adding rows to table... 

Get result1: keyvalues={row-30/colfam1:col- 
3/1306157569144/Put/vlen=8} 

Scan row[row-10]: keyvalues={row-10/colfam1:col- 


5/1306157568822/Put/ vlen=8} 

Scan row[row-100]: keyvalues={row-100/colfam1:col- 
5/1306157570225/Put/ vlen=9} 

Scan row[row-11]: keyvalues={row-11/colfam1:col- 
5/1306157568841/Put/ vlen=8} 

Scan row[row-12]: keyvalues={row-12/colfam1:col- 
5/1306157568857/Put/ vlen=8} 

Scan row[row-13]: keyvalues={row-13/colfam1:col- 
5/1306157568875/Put/ vlen=8} 

Scan row[row-14]: keyvalues={row-14/colfam1:col- 
5/1306157568890/Put/ vlen=8} 


由 于 HBase 和 是 按照 行 键 的 字典 序 排 序 的 ， 因 此 用 户 收 到 的 行 数 据 中 
包 侣 了 预期 的 列 。 


使 用 RemoteHTable 与 一 定数 量 的 REST 服 务 器 进行 通信 是 一 个 
非常 便捷 的 方式 ， 并 且 能 够 使 用 正常 的 Java 客 户 端 API 类 ， 如 Get 或 


Scan ° 


ad a, 


cae 
一 一 当前 REST 的 Java 客 户 端 实现 在 J 于 和 
REST 服 务 器 进行 通信 有 的 Protocol Buffer 编 码 ， 这 是 最 合适 的 
网 络 传输 协议 ， 因 此 提供 了 较 高 的 带宽 


6.2.3 Thrift 


Apache Thrift 是 由 C++ 编写 的 框架 ， 但 是 提供 了 跨 语 言 的 模式 定义 
文件 ， 包 括 Java、C++、Perl、PHP、Python 和 Ruby 等 。 一 旦 用 户 编译 


a 种 模式 ， 用 户 束 可 以 在 一 种 或 多 种 语言 实现 的 系统 之 间 传 输 消 


JON 


1. 安装 


用 户 应 首先 安装 Thrift， 安 装 时 最 好 使 用 适合 当前 操作 系统 的 二 进 
mR, WRAD a 码 重新 编译 。 


从 网 站 下 载 源码 tar 包 ， 并 解压 到 常用 目录 : 


$ wget http://www.apache.org/dist/thrift/0.6.0/thrift-0.6.0.tar.gz 


$ tar -xzvf thrift-0.6.0.tar.gz -C /opt 


$ rm thrift-0.6.0.tar.gz 


首先 ， 用 户 需 要 安装 依赖 的 库 ， 如 Automake `LibTool ` 
Flex ` Bison 以 及 Boost 库 : 


$ sudo apt-get install build-essential automake libtool flex bison 
libboost 


之 后 就 可 以 编译 并 安装 Thrift: 


$ cd /opt/thrift-0.6.0 


$ ./configure 


$ make 


$ sudo make install 


pO 


通过 调用 thrift 命令 可 以 验证 安装 是 否 已 经 成 功 ， 例 如 : 


$ thrift -version 


Thrift version 0.6.0 


一 旦 安装 好 Thrift， 你 就 可 以 编译 模式 文件 ， 并 生成 用 户 指定 语言 
的 RPC 代 码 。HBase 提 供 了 客户 端 API 与 管理 API 依 赖 的 模式 文件 。 用 户 
可 以 使 用 Thrift 二 进 制 文件 为 目 己 的 开发 环境 创建 包 。 


18 已 提供 的 模式 文件 公开 了 大 量 的 API 功 能 ， 但 是 在 
某 些 领域 还 有 从 缺 。 当 HBase 拥 有 不 同 的 API 时 ， 其 模式 文件 
就 已 经 创建 好 了 ， 当 用 户 需 要 使 用 其 时 ， 可 以 很 容易 地 找 
到 。 


例如 ，API 中 的 不 同 之 处 在 于 ， 正 在 使 用 的 是 
mutateRow( ) 方法 ， 而 新 API 使 用 的 是 get ( ) 方法 。 


这 个 工作 在 HBASE-1744 ( 
http://issues.apache.org/jira/browse/HBASE-1744 ) 中 已 完成 ， 
并 且 将 Thrift 模 式 文件 转移 到 了 现在 的 API 中 。 一 旦 完成 ， 它 
会 被 增加 到 thrift2 包 中 ， 这 样 用户 就 能 在 迁移 到 新 模式 时 维 
护 并 使 用 现 有 的 旧 模 式 代码 。 


在 使 用 Thrift 访 问 HBase 之 前 ， 用 户 也 需要 启动 提供 的 


ThriftServer 。 
2. 操作 


局 动 Thrift 服 务 需 生 通 过 已 提供 的 脚本 完成 的 。 用 户 在 使 用 命令 后 
添加 -h 选项 可 以 得 到 必 助 信息 或 者 省 略 所 有 的 选项 ; 


$ bin/hbase thrift 


usage: Thrift [-b < arg>] [-c] [-f] [-h] [-hsha | -nonblocking | 
-threadpool] [-p < arg>] 
-b,--bind < arg> Address to bind the Thrift server to. Not 
supported by 
the Nonblocking and HsHa server [default: 
0.0.0.0] 
-C, --compact Use the compact protocol 
-f, --framed Use framed transport 
-h, --help Print help information 


-hsha Use the THsHaServer. This implies the framed 
transport. 

-nonblocking Use the TNonblockingServer. This implies the 
framed 


transport. 
-p,--port < arg> Port to bind to [default: 9090] 
-threadpool Use the TThreadPoolServer. This is the default. 
To start the Thrift server run 'bin/hbase-daemon.sh start thrift' 
To shutdown the thrift server run 'bin/hbase-daemon.sh stop thrift' 
or 
send a kill signal to the thrift server pid 


脚本 提供 了 非常 多 的 选项 。server、protocol 和 transport 类 型 是 被 客 
户 端 强制 使 用 的 ， 不 过 并 非 所 有 的 语言 都 支持 这 些 选 项 。 通 过 命令 行 
RAE Bes Jk PT AE BL Ee A 例如 ， 使 用 非 阻塞 (non- 
blocking) 服务 器 来 响应 框架 传输 (framed transport) ° 


用 户 可 以 使 用 默认 参数 提供 的 非 守护 模式 局 动 Thrift 服务 : 


$ bin/hbase thrift start 


用 户 可 以 使 用 CtrltC 组 合 键 退 出 进程 。 儿 助 信息 提供 了 如 何 通过 后 
台 进 程 局 动 Thrift 服 务 : 


$ bin/hbase-daemon.sh start thrift 


starting thrift, logging to /var/lib/hbase/logs/hbase-larsgeorge- 
thrift- 


<servername 


>.out. 


使 用 如 下 命令 可 以 停止 Thrift 服 务 ， 作 为 守护 进程 运行 ， 包 含 相 同 
的 脚本 ， 仅 仅 只 需 把 start 换 成 stop : 


$ bin/hbase-daemon.sh stop thrift 


stopping thrift.. 


Thrift 服 务 提供 了 所 有 HTable 可 以 提供 的 操作 ° 


W 上 
一 有 关 Thrift 服 务 的 文档 在 
http://wiki.apache.org/hadoop/Hbase/ThriftApi 中 。 用 户 可 以 在 
文档 中 查阅 所 有 相关 操作 ， 也 可 以 通过 阅读 模式 定义 文件 


$HBASE_HOME/src/main/resources/org/apache/hadoop/hbase/t 
hrift/Hbase.thrift RNA TEEI A n H RIE -° 


AP a NEDE E Thit kar, A N i R RARI 
APEK, Ba Thrifts are eICKASH, GM, HAA ay ARH 
询 或 类 似 的 算法 来 分 摊 人 负载 。 


最 后 -p 或 - -port BAe MAERA arte, AA mH A 
9090 ° 


3. 示例 : PHP 


HBase 不 仅 需要 Thrift 模 式 文 件 ， 而 且 还 需要 多 编程 语言 的 客户 端 
代码 。 下 面 我 们 使 用 PHP 实 现 来 演示 所 需 的 步骤 。 


ee ts 
a 
一 一 用 户 首先 需要 按照 服务 器 文档 的 步骤 启动 Web 服 务 
的 PHP 支 持 。 


第 一 步 ， 复 制 模式 文件 并 编译 成 必 备 的 PHP 源 代码 。 


$ cp -r 
$HBASE_HOME/src/main/resources/org/apache/hadoop/hbase/thrift 
~/thrift_sre 


$ cd thrift_src/ 


$ thrift -gen php Hbase. thrift 


pO 


以 上 thrift 命令 执行 不 能 有 任何 错误 ， 最 后 在 thrift_src 目录 中 能 
够 找到 名 字 为 gen-php 的 目录 ， 其 中 包含 了 两 个 目 动 生成 的 并 能 够 访问 
HBase 的 PHP 文 件 。 


$ 1s -1 gen-php/Hbase/ 


total 616 
-rw-r--r-- 1 larsgeorge staff 285433 May 24 10:08 Hbase.php 
-rw-r--r-- 1 larsgeorge staff 27426 May 24 10:08 Hbase_types.php 


这 些 上 自动 生 成 文件 依赖 于 Thrift 提 供 的 PHP 文 持 库 ， 用 户 需要 把 这 
ea 自动 生成 文件 复制 到 Web 服 务 器 的 文档 根 目 录 (document 
root : 


$ cd /opt/thrift-0.6.0 


$ sudo cp 1ib/php/src $DOCUMENT_ROOT/thrift 


$ sudo mkdir $DOCUMENT_ROOT/thrift/packages 


$ sudo cp -r ~/thrift_src/gen-php/Hbase 
$DOCUMENT_ROOT/thrift/packages/ 


目 动 生成 的 PHP 文 件 复制 到 了 子 目 好 packages 中 ， 类 似 于 前 面 捉 到 
的 Thrift 库 ， 如 果 该 目录 不 存在 束 必 须 创建 该 目录 。 


Wa, 
mA 
ve 


aa 4 

to, a 
一 上述 $DOCUMENT _ROOT 目录 可 能 会 在 warwww 
下 ， 例 如 ， 在 Linux 系 统 部 署 Apache 服 务 的 目录 中 ， 或 Apple 
Mac OS 10.6 的 /Library/WebServer/ Documents/ 目录 中 。 具 体 


可 检查 Web 服 务 的 配置 。 


HBase 提 供 了 一 个 DemoClient.php 文件 ， 这 个 文件 可 以 通过 自动 生 
ah 言 。 同 样 ， 这 个 文件 也 会 被 复制 到 与 Web 服 务 相 


$ sudo cp $HBASE_HOME/src/examples/thrift/DemoClient .php 
$DOCUMENT_ROOT/ 


用 户 在 使 用 前 需要 编辑 DemoClient.php 文件 ， 并 调整 文件 的 开头 部 


# Change this to match your thrift root 
$GLOBALS['THRIFT_ROOT'] = 'thrift 


1 


了 


# According to the thrift documentation, compiled PHP thrift 
libraries should 

# reside under the THRIFT_ROOT/packages directory. If these 
compiled libraries 

# are not present in this directory,move them there from gen-php/. 
require_once($GLOBALS[ 'THRIFT_ROOT'].'/packages/Hbase/Hbase.php'); 


$socket = new TSocket('localhost', 9090); 


一 一 一 一 一 一 


常 编辑 第 一 行 即 可 设置 THRIFT_ROOT 路 径 ， 由 于 
本 ke 文件 仍 在 默认 的 根 目录 中 ， 用 户 此 时 可 以 为 Thrift 设 置 
变量 ， 即 之 前 已 经 将 Thrift 源 码 复制 到 了 该 目录 中 。 


上 述 例 子 的 最 后 一 行 硬 编码 了 服务 着 地 址 和 端口 ， 如 采用 户 想 在 
一 个 分 布 式 环境 中 调试 这 个 例子 ， 其 需要 调整 这 一 行 的 参数 。 


当 一 切 都 准备 好 了 ， 用 户 就 可 以 在 浏览 絮 中 输入 以 下 地 址 进行 访 
[H]: 


http://< webserver-address 


>/DemoClient.php 


Dal Ge ae OUT Ps A T : 


scanning tables... 

found: testtable 
creating table: demo_table 
column families in demo_table: 


column: entry:,maxVer: 10 
column: unused:,maxVer: 3 
Starting scanner... 


类 似 的 客户 端 ， 如 C++、Java、Perl、Python 和 Ruby， 都 需要 按照 
PHP 例 子 中 描述 的 步骤 进行 设置 ; 局 BN Thrift A ae 编译 模式 文件 ， 
生成 所 需 语言 的 客户 问 RPC 代 码 ， 最 后 启动 客户 端 。 用 户 必 须 将 根据 
目标 语言 生成 的 RPC 代 码 部 署 到 客户 端 找到 的 位 置 。 


HBase 目 前 已 经 提供 了 用 于 与 Thrift 服 务 通 信 的 Java 的 RPC 生 成 代 
码 ， 用 户 也 可 以 根据 模式 文件 重新 自行 生成 这 部 分 代码 ， 但 为 了 便于 


使 用 它们 已 经 被 集成 了 。 
6.2.4 Avro 


Apache Avro， 类 似 于 Thrift， 提 供 了 针对 多 种 编程 语言 的 模式 定义 
文件 ， 例 如 Java、C++、PHP、Python 和 Ruby 等 。 一 旦 用 户 编译 了 预定 
义 模式 文件 ， 就 可 以 在 异 构 系统 中 进行 跨 语言 通信 。 


1. 安装 


用 户 在 使 用 Avro 之 前 需要 先 安 装 它 ， 安 装 时 最 好 使 用 适合 当前 操 
作 系 统 的 二 进 制 安装 包 ， 如 有 果 没 有 就 需要 从 源码 中 重新 编译 它 。 


一 旦 安装 好 Avro， 用 户 就 需要 根据 选择 的 编程 语言 编译 模式 预定 
义 文件 以 生成 指定 语言 的 RPC 代 码 。HBase 提 供 了 客户 端 API 以 及 管理 
API 的 模式 文件 ， 用 户 需 要 使 用 Avro 工具 来 创建 支持 当前 开发 环境 的 老 


当然 ， 用 户 在 使 用 Avro 服务 人 厦 衣 ， 必 须要 移 司 动 已 提供 的 


AvroServer ° 
2. 操作 


用 户 可 以 通过 提供 的 脚本 来 启动 Avro 服务 器 。 用 户 可 以 添加 -h 选 
项 或 者 省 略 全 部 选项 以 获得 命令 行 的 帮助 信息 : 


$ bin/hbase avro 


Usage: java org.apache.hadoop.hbase.avro.AvroServer --help | [-- 
port=PORT] start 
Arguments: 


start Start Avro server 

stop Stop Avro server 
Options: 
port Port to listen on. Default: 9090 
help Print this message and exit 


FAP ay bts AERA Behe BRA IE SP RT D Avro RH A: 


$ bin/hbase avro start 


AC 


FAP PEP Ctrl+C Gee a] DR WERE e HBaseth teh (iA at 
程 的 形式 启动 Avro 服务 器 的 脚本 : 


$ bin/hbase-daemon.sh start avro 


starting avro, logging to /var/lib/hbase/logs/hbase-larsgeorge-avro- 
< servername>.out 


用 户 可 以 使 用 如 下 命令 停止 Avro 服务 器 ， 使 用 的 是 相同 的 脚本 ， 
只 是 把 start 换 成 了 stop : 


$ bin/hbase-daemon.sh stop avro 


stopping avro.. 


Avro 服 务 句 提供 了 所 有 HTable 可 以 提供 的 操作 ° 


Wa 


md 
a a + 
` 
W a 
Lo w 


“有关 Avro 服务 的 文档 请 访问 
http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/avro/ 


package-summary.html 。 用 户 可 以 从 文档 内 查阅 所 有 相关 操 
作 ， 也 可 以 通过 阅读 模式 定义 文件 
$HBASE_HOME/src/main/java/org/ 
apache/hadoop/hbase/avro/hbase.avpr 来 确认 提供 的 所 有 可 用 
操作 。 


用 户 可 以 启动 多 台 Avro 服 务 器 ， 并 可 以 通过 负载 均衡 算法 来 均 摊 
aes 每 台 Avro 服 务 器 都 是 无 状态 的 ， 例 如 ， 可 以 采用 轮 询 或 
以 i 法 


最 后 ，-p 或 - -port 参数 可 以 绑 定 服务 瑚 监听 端口 ， 称 认为 
9090 ° 


6.2.5 ”其 他 客户 端 

HBase 还 提供 了 其 他 知 干 客户 端 库 来 访问 HBase 集 群 。 大 致 上 可 以 
a, ee 网 天 服务 与 HBase 集 群 通信 两 种 情况 。 以 
下 是 一 些 Hl 3 


JRuby 


HBase Shell 是 个 使 用 基于 JVM 语 言 访问 Java API 的 最 佳 例子 ， 它 的 
源码 非常 全 面 ， 因 此 用 户 可 以 使 用 它 添 加 相同 的 功能 到 用 户 上 自己 的 
JRuby 代 人 码 中 。 

HBdql 

HBql 在 HBase 基 础 上 提供 了 SQL 语法 访问 ， 如 果 要 拓展 新 功能 则 需 
要 HBase 添 加 对 应 功能 ， 详 情 见 HBql 项 目 官方 网 址 http:/www.hbql.com/ 
HBase-DSL 


这 个 项 目 提供 了 特定 的 类 ， 该 尖 可 帮助 格式 化 得 询 HBase 集 群 。 项 
目 风格 是 类 似 于 builder 模 式 的 代码 ， 用 户 可 以 快速 组 合 需要 的 参数 和 选 


项 ， 详 情 见 项 目 官方 wiki ( https://github.com/nearinfinity/hbase-dsl/wiki 
) o 


JPA/JPO 


例如 ， 用 户 可 以 使 用 DataNucleus (http://www.datanucleus.org ) 在 
HBase 之 上 封 疼 一 层 JPAAJPO 。 


PyHBase 


PyHBase 项 目 〈 https://github.com/hammer/pyhbase/ ) 提供 了 与 
Avro AR 18 (a KU HBase% Phin ° 


AsyncHBase 


AsyncHBase 提 供 了 完全 异步 、 非 阻塞 、 线 程 安全 的 客户 端 来 访问 
HBase 集 群 。 它 使 用 本 地 RPC 协 议 直接 和 许多 服务 器 直接 通信 ， 详 情 见 
这 个 工程 的 官方 主页 https://github.com/stumbleupon/asynchbas e ° 


de 
一 一 全 需要 注意 的 是 ， 在 以 上 提 到 的 工程 中 ， 有 的 已 经 很 
久 没有 更 新 。 很 多 作者 初 囊 只 是 满足 自己 的 个 人 需要 才 将 其 
开源 。 用 户 最 好 以 这 些 工 程 为 基础 进行 二 次 研发 后 使 用 。 


6.3” 批 处 理 客户 端 


另外 一 种 客户 端的 交互 使 用 场景 是 批量 访问 数据 。 不 同 之 处 是 这 
些 批量 处 理 通常 是 异步 运行 在 后 台 ， 需 要 扫描 大 量 的 数据 ， 例 如 ， 扫 
描 索 引 、 基 于 数学 模型 的 机 器 学 习 或 报表 统计 需求 。 


这 些 处 理 案 例 大 多 数 不 是 用 户 直接 驱动 ， 而 且 所 需要 的 运行 时 间 
非常 漫长 ， 因 此 用 户 不 会 特别 关注 单 次 访问 的 延 时 。 大 多 数 处 理 批 量 


读 写 HBase 的 框架 是 基于 MapReduce 的 模式 。 
6.3.1 MapReduce 

Hadoop MapReduce 框 架 的 目标 是 处 理 PB 级 的 数据 ， 具 有 高 可 用 、 
目标 明确 、 编 程 模型 答 单 易 用 等 特点 。 MapReduce 提 供 了 多 种 以 HBase 
为 数据 源 或 目标 数据 库 执 行 的 方法 。 
1. 原生 Java 


关于 基于 MapReduce Java API 的 访问 的 详细 内 容 在 第 7 章 中 讨论 。 


2. Clojure 
HBase-Runner H ( https://github.com/mudphone/hbase-runner/ ) 


为 功能 性 编程 语言 Clojure 访 问 Hbase 提 供 了 文 持 。 用 户 可 以 直接 使 用 
Clojure 编 写 MapReduce 程 序 来 获取 HBase 表 。 


6.3.2 Hive 


Apache Hive © 项 目 提供 了 基于 Hadoop 的 数据 仓库 。Hive 最 早 由 
Facebook 开 发 ， 现 在 是 Hadoop 生 态 圈 的 开源 项 目 。 


Hive 提 供 了 类 似 于 SQL 的 处 理 语言 ， 叫 HiveQL ， 人 允许 用 户 查 询 存 
储 在 Hadoop 中 的 半 结 构 化 数据 。 最 终 碍 询 会 转化 成 MapReduce 作 业 ， 
在 本 地 执行 或 在 分 布 式 的 MapReduce 集 群 中 执行 。 数 据 在 作业 执行 的 时 
候 被 解析 ， 并 且 Hive 提 供 了 一 个 不 仅 可 以 访问 HDFS 的 数据 还 可 以 访问 
其 他 数据 源 的 存储 处 理 (storage handler) 名 层 。 存 储 层 的 数据 获取 对 
用 户 查 询 来 说 是 透明 的 。 


Hive 0.6.0 及 之 后 的 版 本 提供 了 对 HBase 的 支持 。 用 户 可 以 直接 
定义 将 Hive 表 存储 为 HBase 表 ， 并 按 需要 映射 列 值 ， 在 需要 的 时 候 行 键 
可 以 作为 独立 的 一 列 。 


HBase 版 本 支持 


此 外 ，Hive 0.7.0 仅 仅 支 持 HBase 0. 89 . 0- SNAPSHOT 
版 本 ， 但 很 快 就 可 以 支持 HBase 的 更 高 版 本 。 言 外 之 意 
是 ， 两 者 之 间 的 版 本 需要 匹配 ， 细 微 的 RPC 变 化 都 可 能 影 
响 到 通信 交互 。 


当前 唯一 的 办 法 是 用 新 的 HBase JAR 包 覆盖 旧 的 JAR 
包 ， 并 重新 编译 Hive 代 码 。 用 户 既 可 以 更 新 Ivy 设置 中 的 
HBase 版 本 (包括 Hadoop) ， 然 后 复制 新 的 HBase JAR, 
2I|$HIVE_HOME/src/build/dist/lib 目录 中 ， 并 重新 编译 
(YMMV) 。 


RPA 7 ie x BS lvy PRE BR, PA E oe 
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定 路 径 : 


$ wget http://www.apache.org/dist//hive/hive-0.7.0/hive- 
0.7.0.tar.gz 


$ tar -xzvf hive-0.7.0.tar.gz -C /opt 


然后 编辑 Ivy 配 置 文件 : 


$ cd /opt/hive-0.7.0/src 


$ vim ivy/libraries.properties 


#hbase.version=0.89.0-SNAPSHOT 
#hbase-test.version=0.89.0-SNAPSHOT 
hbase. version=0.91.0-SNAPSHOT 
hbase-test.version=0.91.0-SNAPSHOT 


用 户 可 以 到 工程 中 执行 ant ， 在 此 之 前 必须 为 即将 编 
译 的 Hadoop 版 本 设置 环境 变量 : 


$ export HADOOP_HOME="/< your -path>/hadoop-0.20.2" 
$ ant package 


Buildfile: /opt/hive-0.7.0/src/build. xml 
jar: 
create-dirs: 


compile-ant-tasks: 


package: 
[echo] Deploying Hive jars to /opt/hive-0.7.0/src/build/dist 


BUILD SUCCESSFUL 


编译 过 程 需要 一 段 时 间 ， 因 为 Ivy 需 要 下 载 所 有 依赖 的 
库 ， 下 载 速度 取决 于 用 户 的 网 速 。 一 旦 编译 完成 ， 用 户 了 就 
可 以 开始 使 用 新 版 本 的 HBase 处 理 数 据 。 


在 某 些 情况 下 ， 用 户 需要 编辑 目录 src/hbase- 
handler/src/java/org/apache/hadoop/hive/ 
hbase/ 下 的 所 有 代码 文件 ， 并 使 用 如 下 的 方式 修改 : 


HBaseConfiguration hbaseConf = new HBaseConfiguration(hiveConf); 


BA Te a LL) aie: 


Configuration hbaseConf = HBaseConfiguration.create(hiveConf); 


安装 完 Hive 之 后 ， 用 户 需要 编辑 配置 文件 使 Hive 能 够 访问 HBase 的 
JAR 文 件 ， 以 及 修改 附带 的 配置 。 修 改 $HIVE_HOME/conf/hive-env.sh 


文件 ， 要 修改 的 行 如 下 所 示 : 


# Set HADOOP_HOME to point to a specific hadoop install directory 
HADOOP_HOME=/usr/local/hadoop 
HBASE_HOME=/usr/local/hbase 


# Hive Configuration Directory can be controlled by: 
# export HIVE_CONF_DIR= 
export HIVE_CLASSPATH=/etc/hbase/conf 


# Folder containing extra libraries required for hive 
compilation/execution 

# can be controlled by: 

export HIVE_AUX_JARS_PATH=/usr/local/hbase/hbase-0.91.0- 
SNAPSHOT. jar 


人 | 
一 一 用 户 需要 复制 系统 提供 的 $HIVE_HOME/conf/hive- 
env.sh.template 文件 ， 并 保存 到 相同 的 目录 中 ， 但 是 需要 去 
fia Za.template ， 复 制 完 成 后 用 户 可 以 按照 前 面 描述 的 情况 
编辑 该 文件 。 


Hive 安 装 好 后 就 可 以 使 用 新 的 存储 处 理 右 。 首 先 ， 局 动 Hive 命 令 
行 ， 创 建 一 张 Hive 本 地 表 ， 并 使 用 已 提供 的 示例 文件 插入 数据 : 


$ build/dist/bin/hive 


Hive history 
file=/tmp/larsgeorge/hive_job_log_larsgeorge_201105251455_ 200991011 
7.txt 

hive> CREATE TABLE pokes(foo INT,bar STRING) 


/ 

OK 

Time taken: 3.381 seconds 

hive> LOAD DATA LOCAL INPATH '/opt/hive- 
0.7.0/examples/files/kv1.txt' 


OVERWRITE INTO TABLE pokes 


Copying data from file:/opt/hive-0.7.0/examples/files/kvi.txt 
Copying file: file:/opt/hive-0.7.0/examples/files/kv1.txt 
Loading data to table default.pokes 


Deleted file:/user/hive/warehouse/pokes 
OK 
Time taken: 0.266 seconds 


这 里 使 用 了 表 pokes ， 表 结构 见 向 导 
http://wiki.apache.org/hadoop/Hive/GettingStarted 里 的 描述 。 然 后 用 户 可 
以 创建 一 张 如 下 的 表 : 


hive> CREATE TABLE hbase table 1(key int,value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val") 


TBLPROPERTIES("hbase.table.name" = "hbase_table_1"); 


OK 
Time taken: 0.144 seconds 


上 述 的 DDL 语 句 摘 述 了 使 用 TBLPROPERTIES ` 
SERDEPROPERTIES 和 HBase 处 理 器 来 处 理 Hive 的 表 hbase_table_1 
。 hbase .columns .mapping 参数 提供 了 特殊 的 功能 ， 使 用 “: key 
” 回 射 行 键 ， 用 户 可 以 把 映射 行 键 的 特殊 列 放置 在 任意 位 置 。 这 里 我 们 
将 其 放置 在 了 第 一 列 ， 恰 好 对 应 到 了 Hive 表 中 的 键 这 一 列 以 及 HBase 表 
中 行 键 这 一 列 。 


hbase.table,name 这 个 属性 是 可 选 的 ， 仪 当 用 户 想 在 Hive 和 
HBase 中 使 用 不 同名 字 的 表 名 时 才 需 要 填写 。 在 这 里 ， 它 被 设置 为 相同 
的 名 字 ， 因 此 可 以 被 省 略 。 


接 下 来 要 加 载 先 前 填充 过 的 Hive 表 pokes 。 根 据 映射 关系 ， 这 里 
会 将 pokes .foo 的 值 保存 在 行 键 中 ， 将 pokes .bar 的 值 保存 在 
cfi:vali 列 中 : 


hive> INSERT OVERWRITE TABLE hbase_table_1 SELECT * FROM pokes; 


Total MapReduce jobs = 1 

Launching Job 1 out of 1 

Number of reduce tasks is set to 0 since there's no reduce operator 
Execution log at: 
/tmp/larsgeorge/larsgeorge_20110525152020 _de5f67d1- 9411-446f -99bb- 


35621e1b259d.1log 

Job running in-process(local Hadoop) 

2011-05-25 15:20:31,031 null map = 100%, reduce = 0% 
Ended Job = job_local_0001 

OK 

Time taken: 3.925 seconds 


这 里 启动 了 示例 中 第 一 个 MapReduce 作 业 。 用 户 通过 上 面 的 例子 可 
以 看 到 Hive 在 命令 行 中 打印 了 哪些 使 用 值 。 这 个 作业 复制 内 部 Hive 表 
中 的 数据 ， 并 导入 到 HBase 表 中 。 


A 在 某 些 特殊 设置 下 ， 尤 其 是 在 本 地 模式 、 伪 分 布 式 
模式 下 ， 可 能 会 发 生 Hive 作 业 失 败 的 情况 ， 并 且 异 常 信息 很 
隐藏 。 在 分 析 详细 信息 前 需要 使 用 本 地 MapReduce 模 式 运行 
Hive。 在 Hive CLI 中 输入 : 


hive> SET mapred.job.tracker=local; 


然后 再 执行 一 遍 Hive 作 业 。 这 种 工作 模式 已 经 增加 到 了 
Hive 0.7.0 中 ， 但 对 于 用 户 来 说 可 能 并 不 能 直接 使 用 。 如 采用 
户 想 尝试 使 用 它 ， 这 个 模式 避免 了 使 用 Hadoop MapReduce 框 
锋 一 一 当 调 试 Hive 作 业 时 可 以 减少 我 们 的 部 分 担心 。 


下 面 的 使 用 场景 统计 了 表 pokes 和 表 hbase_table_1 的 行 数 
(一 些 CLI 输 出 细节 已 经 被 省 略 ) : 


hive> select count(*)from pokes; 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer(in bytes): 
set hive.exec.reducers.bytes.per.reducer=< number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max=< number> 
In order to set a constant number of reducers: 
set mapred.reduce.tasks=< number> 
Execution log at: 
/tmp/larsgeorge/larsgeorge_20110525152323 418769e6- 1716-\48ee- 
aoab- dacd59e55da8.1log 


Job running in-process(local Hadoop) 
2011-05-25 15:23:07,058 null map = 100%, reduce = 100% 
Ended Job = job_local_0001 


Time taken: 3.627 seconds 


hive> select count(*)from hbase_table_1; 


Time taken: 4.542 seconds 


有 趣 的 是 ， 两 者 之 间 的 统计 结果 有 差异 ， 差 异 超过 100 行 ， 这 意味 
着 以 HBase 为 存储 表 的 数据 较 少 。 原 因 究竟 是 什么 ?由 于 HBase 中 行 键 
是 唯一 的 ， 因 此 重复 的 行 键 已 经 相互 覆盖 ， 而 pokes .foo 这 一 列 存在 
着 相同 的 重复 值 。 这 和 在 原 表 中 使 用 SELECT DISTINCT 是 一 样 的 : 


hive> select count(distinct foo)from pokes; 


Time taken: 3.525 seconds 
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x 最 后 我 们 删除 这 两 张 表 ， 同 时 也 移 除 了 Hive 表 对 应 的 实体 HBase 


hive> drop table pokes; 


OK 
Time taken: 0.741 seconds 
hive> drop table hbase_table_1; 


OK 
Time taken: 3.132 seconds 


hive> exit; 


用 户 也 可 以 将 一 张 Hive 表 与 已 有 HBase 表 关联 ， 或 者 将 多 张 Hive 表 
与 已 有 HBase 表 关联 。 当 HBase 表 中 有 不 同 列 族 时 这 种 方式 比较 有 用 ， 
可 以 起 到 分 离 查 询 的 作用 。 由 于 进行 Scan 操作 时 可 以 只 扫 摘 需要 的 列 


族 ， 因 此 能 够 显著 提升 查询 性 能 。 用 户 设置 列 族 可 以 尽 可 能 扫描 最 小 
的 磁盘 文件 ， 而 不 用 扫 摘 全 部 数据 然后 过 滤 出 相应 数据 。 


使 用 Hive EXTERNAL 关键 字 可 以 映射 已 有 的 表 ， 其 同时 也 被 其 他 
地 方 用 来 获取 未 经 Hive 管 理 的 Hive 表 中 的 数据 ， 这 种 模式 可 以 帮助 实 
际 存储 不 受 Hive 的 控制 : 


hive> CREATE EXTERNAL TABLE hbase table 2(key int,value string) 


STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val") 


TBLPROPERTIES("hbase.table.name" = "< existing-table-name 


>"); 


在 Hive 中 删除 外 部 表 时 有 是 不 会 删除 实际 数据 的 ， 这 个 过 程 仅仅 删除 了 
该 表 的 元 数据 。 


此 外 ， 用 户 还 有 其 他 选项 可 以 使 HBase 的 列 直 接 映 射 到 Hive 的 列 ， 
或 者 可 以 将 整个 列 族 映 射 到 Hive 的 MAP 类 型 。 当 用 户 事 先 并 不 知道 具 
体 的 表 绪 构 时 ， 这 种 方式 非常 有 用 ， 在 Hive 碍 询 中 映射 列 族 ， 并 且 在 
查询 时 目 动 过 历 所 有 列 。 
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由 于 存储 层 对 Hive 的 上 层 来 说 是 透明 的 ， 用 户 还 可 以 使 用 Hive 提 
供 的 自 定 义 函 数 (user defined function, UDF) 一 一 用 户 自己 定义 的 

当前 版 本 中 存在 如 下 缺点 。 
无 自 定义 序列 化 

HBase 当 前 存储 格式 为 byte[] 数组 ， 因 此 Hive 需 要 将 每 一 列 都 转 
化 成 为 String ， 并 从 中 进行 序列 化 。 例 如 ， 在 Hive 中 ，INT 列 被 设置 
为 12， 即 需要 使 用 Bytes .toBytes("12") 这 种 方式 存储 。 
无 版 本 控制 


目前 在 处 理 HBase 的 表 时 ， 没 有 任何 有 关 版 本 细 市 的 控制 。Hive 忌 
征 返 回 最 新 版 本 数据 。 


最 后 ， 用 户 在 使 用 Hive 前 ， 需 要 检查 上 述 功能 是 否 已 经 添加 。 


6.3.3 Pig 


Apache Pig ® 项 目 提供 了 一 个 分 析 海 量 数 据 的 平台 。 它 提供 了 自 
己 的 查询 语言 ， 叫 做 Pig Latin，Pig 语 法 使 用 了 命令 式 编 程 风 格 ， 和 迭代 
式 执行 ， 并 最 终 将 输入 转化 为 输出 。Pig 语 言 的 编程 风格 与 Hive 模 拟 
SQL 的 实现 方式 的 风格 截然 相反 。 


但 Pig Latin 与 HiveQL 相 比 更 适合 有 编程 经 验 的 人 使 用 ， 但 本 吴 的 
结构 使 得 Pig 更 适合 并 行 处 理 。 用 户 将 Hadoop 伍 MapReduce 框 架 结 合 起 
来 使 用 时 ， 可 以 在 一 个 可 接受 的 时 间 范 围 内 处 理 海量 数据 。 


Pig 0.7.0 版 本 介绍 了 LoadFunc/StoreFunc 类 和 相关 功能 ， 这 
个 功能 使 得 Pig 可 以 读 取 不 同 数据 源 的 数据 ， 而 不 仅仅 是 HDFS 中 的 数 
据 。 例 如 ， 在 HBaseStorage 类 中 实现 的 HBase 数 据 源 。 


Pig 文 持 HBase 表 的 读 写 ， 用 户 可 以 映射 HBase 表 中 的 列 到 Pig 元 组 
(tuple) ， 并 且 可 以 选择 行 键 作为 第 一 列 读 取 。 写 入 的 时 候 第 一 个 字 
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存储 层 也 支持 基本 的 过 滤 ， 它 在 行 级 别 上 工作 并 且 提供 了 比较 操 
作 ， 详 情 见 4.1.1 节 的 “比较 运算 符 ”。 © 


Pig 安 装 


用 户 可 以 根据 选择 的 操作 系统 直接 安装 已 经 编译 好 的 
二 进 制 程序 ， 如 果 没 有 合适 的 安装 程序 也 可 以 下 载 工程 源 
码 并 重新 编译 到 本 地 。 例 如 ， 在 Linux 系 统 中 需要 按照 如 
下 步骤 编译 。 轴 


从 官方 网 站 下 载 源码 ， 然 后 解压 到 指定 目 邓 : 


$ wget http://www.apache.org/dist//pig/pig-0.8.1/pig-0.8.1.tar.gz 


$ tar -xzvf pig-0.8.1.tar.gz -C /opt 


$ rm pig-0.8.1.tar.gz 


将 pig 脚本 添加 到 环境 变量 中 ， 将 PIG_HOME 环境 变 
量 设置 如 下 : 


$ export PATH=/opt/pig-0.8.1/bin:$PATH 


$ export PIG_HOME=/opt/pig-0.8.1 


最 后 ， 用 户 可 以 通过 以 下 命令 检查 安装 是 否 成 功 : 


$ pig -version 


Apache Pig version 0.8.1 
compiled May 27 2011,14:58:51 


用 户 可 以 按照 教程 中 提供 的 代码 和 数据 去 实践 通过 Pig 访 问 
HBase。 在 使 用 Pig 之 前 ， 用 户 要 通过 HBase Shell 创 建 表 : 


hbase(main):001:0> create 'excite', 'colfam1' 


启动 Pig Shell 脚 本 ， 巧 妙 地 调用 pig 脚本 Grunt ， 如 果 用 户 想 使 用 本 
地 测试 ， 则 需要 使 用 -x local 命令 : 


$ pig -x local 


grunt> 


fe 


本 地 模式 意味 着 Pig 并 不 运行 在 MapReduce 模 式 中 ， 而 是 使 用 
Hadoop 的 一 个 组 件 LocalJobRunner 运行 ， 并 模拟 MapReduce 程 序 将 
作业 都 运行 在 同一 个 进程 中 。 这 种 模式 有 利于 测试 和 原型 设计 阶段 ， 
但 如 果 数 据 量 较 大 时 ， 这 种 模式 则 不 适合 。 


用 户 可 以 通过 编辑 器 提前 编写 脚本 ， 然 后 通过 pig 脚 本 执行 。 用 户 
也 可 以 在 Pig Shell 中 敲 入 Pig Latin 语 句 。 最 终 ，Pig 语 句 会 转化 成 一 个 或 
多 个 MapReduce 作 业 ， 但 并 非 所 有 的 语句 都 能 触发 执行 ， 因 此 用 户 最 好 
逐 行 定义 这 些 语句 ， 然 后 调用 DUMP 或 STORE ， 使 执行 能 够 按照 预定 
逻辑 过 程 执 行 。 
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Pig 教 程 使 用 了 由 Excite 提 供 的 少量 的 数据 集合 用 于 测试 ， 包 含 了 
匿名 用 户 ID、 时 间 惟 和 用 于 用 户 搜索 的 索引 标题 。 第 一 步 ， 用 户 需要 
将 这 些 数据 加 载 到 HBase 中 ， 并 经 过 商 单 的 组 合 转化 ， 以 强制 确保 每 个 
条 目 行 键 的 唯一 性 : 


grunt> raw = LOAD 'tutorial/data/excite-small.log' \ 


USING PigStorage('\t')AS(user, time, query) ; 
T = FOREACH raw GENERATE CONCAT(CONCAT(user, '\u0000'), time), query; 


grunt> STORE T INTO 'excite' USING \ 


org.apache.pig.backend.hadoop.hbase.HBaseStorage('colfami:query' ); 


2011-05-27 22:55:29,717 [main] INFO org.apache.pig.backend.hadoop. 
\ 

executionengine.mapReduceLayer .MapReduceLauncher - 100% complete 
2011-05-27 22:55:29,717 [main] INFO org.apache.pig.tools.pigstats. 
PigStats \ 

- Detected Local mode. Stats reported below may be incomplete 


2011-05-27 22:55:29,718 [main] INFO org.apache.pig.tools.pigstats. 
PigStats \ 
- Script Statistics: 


HadoopVersion PigVersion UserId StartedAt FinishedAt Features 
0.20.20.8.1 larsgeorge 2011-05-27 22:55:22 2011-05-27 22:55:29 
UNKNOWN 


Success! 


Job Stats(time in seconds): 
JobId Alias Feature Outputs 
job_local_0002 T,raw MAP_ONLY excite, 


Input(s): 
Successfully read records from: "file:///opt/pig- 
0.8.1/tutorial/data/ excite-small.log" 


Output(s): 
Successfully stored records in: "excite" 


Job DAG: 
job_local_0002 
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”用 户 可 以 使 用 DEFINE 语句 创建 HbaseStorage 
类 的 Java 包 名 的 短 引 用 。 例 如 : 


grunt> DEFINE LoadHBaseUser 
org.apache.pig.backend.hadoop.hbase.HBaseStorage(\ 
‘data:roles','-loadKey'); 


grunt> U = LOAD 'user' USING LoadHBaseUser; 
grunt> DUMP U; 
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上 述 的 STORE 语句 开局 了 一 个 MapReduce 作 业 ， 该 作业 从 预先 给 
出 的 日 志文 件 中 读 取 数据 并 加 载 到 HBase 表 中 。 上 述 例 子 改 变 了 组 合 行 
键 之 间 的 关系 一 一 在 前 面 的 STORE 语句 中 指定 了 第 一 列 用 于 存储 行 键 
一 一 行 键 由 用 户 和 时 间 惟 两 列 的 值 组 合 而 成 ， 之 间 由 字 节 0 分 隔 开 。 


处 理 数 据 需要 另外 的 LOAD 语句 ， 这 次 需要 使 用 HBaseStorage 
类 . 


grunt> R = LOAD 'excite' USING \ 


org.apache.pig.backend.hadoop.hbase.HBaseStorage('colfam1:query', '- 
loadKey' )\ 


AS(key: chararray,query: chararray); 


括号 里 的 参数 定义 了 字段 到 列 的 映射 信息 ， 以 及 其 他 相关 的 额外 
参数 ， 这 些 参数 定义 了 把 行 键 作 为 首 列 载 入 。AS 部 分 显 式 地 定义 了 行 
键 和 colfam1 :query 列 在 访问 时 会 被 转化 为 Pig 的 字符 串 类 型 
chararray。 默 认 它 们 以 bytearray 类 型 返回 ， 这 个 和 它们 存储 在 


人 
行 键 。 


用 户 可 以 通过 转 储 内 容 R 来 测试 先前 语句 的 结果 。 


grunt> DUMP R; 


Success! 


(002BB5A52580A8ED970916150445, margaret laurence the stone angel) 
(002BB5A52580A8ED970916150505, margaret laurence the stone angel) 


该 元 组 的 第 一 列 存放 着 行 键 ， 行 键 在 首次 从 文件 复制 到 HBase 的 过 
这 样 原 始 的 文本 文件 将 被 
新 创建 : 


grunt> S = foreach R generate FLATTEN(STRSPLIT(key, '\u0000',2))AS \ 
(user: chararray,time: long), query; 
grunt> DESCRIBE S; 


S: {user: chararray,time: long,query: chararray} 


再 次 使 用 DUMP 显示 最 终结 采 : 


grunt> DUMP S; 


(002BB5A52580A8ED, 970916150445,margaret laurence the stone angel) 
(002BB5A52580A8ED, 970916150505,margaret laurence the stone angel) 


pO 


用 户 可 以 使 用 之 前 的 代码 替换 LOAD 和 STORE 语句 ， 然 后 按照 剩 
余 的 Pig 教 程 党 试 处 理 。 


最 后 ， 输 入 QUIT 命令 可 以 退出 Grunt Shell: 


grunt> QUIT; 


$ 


当前 版 本 的 Pig 对 HBase 文 持 尚 有 一 些 缺 点 ， 如 下 所 示 。 
无 版 本 支持 


目前 在 处 理 HBase 的 表 时 ， 没 有 任何 版 本 细 市 控制 。Pig 忌 古 返 回 
最 近 一 个 版 本 的 数据 。 


固定 的 列 映射 


行 键 只 能 是 第 一 列 ， 且 不 能 被 其 他 列 取代 。 但 是 ， 这 个 缺陷 可 以 
通过 FOREACH . . GENERATE 语句 克服 ， 进 行 重新 布局 。 


最 后 ， 用 户 在 使 用 Pig 前 ， 需 要 检查 是 否 已 经 添加 上 述 功 能 。 


6.3.4 Cascading 


Cascading 是 MapReduce 的 替代 API， 实 际 上 它 使 用 MapReduce 执 行 
作业 ， 但 用 户 在 开发 时 不 必 以 MapReduce 的 模式 来 考虑 它 的 执行 。 


该 模型 类 似 现实 世界 的 管道 装置 ， 数 据 来 源 是 水 龙头 (tap) ， 输 
出 是 汇总 (sink) 。 这 些 管道 一 起 形成 了 处 理 流 程 ， 数 据 传输 通过 管 
道 并 在 这 个 过 程 中 进行 转换 。 管 道 可 以 连接 到 更 大 的 管道 组 件 ， 形 成 
更 复杂 的 处 理 流 程 。 


数据 流 经 (stream) 管道 ， 可 以 拆 分 、 合 并 、 分 组 或 汇总 ， 数 据 
被 表示 为 元 组 (tuple) 并 形成 了 一 个 元 组 流 (tuple stream) 。 这 种 面 
回 可 视 化 的 模型 使 得 开发 MapReduce 的 任务 更 像 是 构造 工作 ， 并 且 降 低 
了 实际 工作 的 复杂 度 。 


Cascading (1.0.1 版 本 ) 文 持 从 HBase 集 群 读 写 数据 。 更 多 细 和 和 诛 
码 可 在 模块 页 面 http:/www.cascading.org/modules.html 中 进行 查阅 。 


例 6. m T EE O aa 群 的 流程 。 从 模块 页 面 可 以 链接 


到 GitHub 人 仓库， 点 击 可 查看 更 详细 的 API。 
例 6.2 ”使 用 Cascading 向 HBase 插 入 数据 


// read data from the default filesystem 
// emits two fields: "offset" and "line" 
Tap source = new Hfs(new TextLine(),inputFileLhs); 


// store data in a HBase cluster,accepts fields "num", "lower", and 
"upper" 
// will automatically scope incoming fields to their proper 
familyname, 
// "left" or "right" 
Fields keyFields = new Fields("num"); 
String[] familyNames = {"left","right"}; 
Fields[] valueFields = new Fields[] {new Fields("lower"), 
new Fields("upper")}; 
Tap hBaseTap = new HBaseTap("multitable",new HBaseScheme(keyFields, 
familyNames, valueFields),SinkMode.REPLACE) ; 


// a Simple pipe assembly to parse the input into fields 
// a real app would likely chain multiple Pipes together for more 
complex 
// processing 
Pipe parsePipe = new Each("insert",new Fields("line"), 
new RegexSplitter(new Fields("num", "lower", "upper")," ")); 


// “plan" a cluster executable Flow 
// this connects the source Tap and hBaseTap(the sink Tap)to the 
parsePipe 
Flow parseFlow = new 
FlowConnector (properties) .connect(source, hBaseTap, 
parsePipe); 


// start the flow,and block until complete 
parseFlow.complete(); 


// open an iterator on the HBase table we stuffed data into 
TupleEntryIterator iterator = parseFlow.openSink(); 


while(iterator.hasNext()){ 
// print out each tuple from HBase 
System.out.println("iterator.next() = " + iterator.next()); 


} 


iterator.close(); 


与 Hive 和 Pig 不 同 的 是 ，Cascading 提 供 了 Java API， 而 不 提供 特定 
领域 语言 (domain specific languages，DSL) 的 封装 和 访问 。 在 
Cascading 这 个 项 目 之 上 还 有 一 些 其 他 的 开源 项 目 提 供 了 DSL 。 


6.4 Shell 

HBase Shell 是 HBase 集 群 的 命令 行 授 口 。 用 户 可 以 使 用 Shell 访 问 本 
地 或 远程 服务 器 并 与 其 进行 交互 ，Shell 同 时 提供 了 客户 端 和 管理 功能 
的 操作 ， 这 些 细节 我 们 在 本 书 的 前 面 几 章 中 已 经 介绍 过 了 。 
6.4.1 ”基础 


Shell 试 验 的 第 一 步 是 启动 Shell: 


$ $HBASE HOME/bin/hbase shell 


HBase Shell;enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 


Version 0.91.0-SNAPSHOT, r1127782,Thu May 26 10:28:47 CEST 2011 


hbase(main) :001:0> 


HBase Shell 是 基于 Jruby 的 ，JRuby 是 基于 Ruby 实 现 的 Java 虚 拟 机 。 
加 更 确切 地 说 ， 它 使 用 的 是 交互 式 Ruby Shell (Interactive Ruby Shell, 
IRB) ， 输 入 命令 并 快速 得 到 响应 。HBase 使 用 Java 基 本 的 API 拓 展 了 


Ruby 肢 本， 并 且 继 承 了 对 历史 记录 和 实现 的 内 置 支持 ， 以 及 所 有 的 
Ruby 命 令 。 


人 
re 
”Ruby 并 不 需要 刻意 安装 ，HBase 提 供 了 JRuby Shell 


运行 所 需要 的 JAR 文 件 。 用 户 可 以 直接 使 用 已 经 提供 的 、 基 
于 Java 运 行 的 Hbase Shell 脚 本 。 


局 动 后 ， 用 户 输 入 help 命令 然后 回 车 ， 会 返回 文本 的 帮助 信息 
(以 下 代码 示例 省 略 了 部 分 内 容 ) 


hbase(main):001:0> help 


HBase Shell, version 0.91.0-SNAPSHOT, r1127782,Thu May 26 10:28:47 
CEST 2011 

Type 'help "COMMAND"',(e.g. ‘help "get"' -- the quotes are 
necessary) for 

help on a specific command. Commands are grouped. Type ‘help 
"COMMAND_GROUP"', 

(e.g. ‘help "general"')for help on a command group. 


COMMAND GROUPS: 
Group name: general 
Commands: status, version 


Group name: ddl 
Commands: alter,create, describe, disable, drop, enable, exists, 
is_disabled, is_enabled, list 


SHELL USAGE: 

Quote all names in HBase Shell such as table and column names. 
Commas delimit 

command parameters. Type < RETURN> after entering a command to run 
it. 

Dictionaries of configuration used in the creation and alteration 


of tables are Ruby Hashes. 
They look like this: 


eres 用 户 可 以 通过 在 调用 时 添加 命令 来 请 求 特 定 的 玫 助 ， 
还 可 以 对 一 组 命令 请 求 帮助 ， 命 令 或 组 名 都 需要 用 引号 括 起 来 。 


要 离开 命令 行 可 以 输入 exit 或 quit : 


hbase(main):002:0> exit 


Shell 命 令 e 选项 , 添加 -h =k- -help , 
切换 到 命令 行 时 会 看 到 这 些 命令 行 选 项 : 


$ $HBASE_HOME/bin.hbase shell -h 


HBase Shell command-line options: 


format Formatter for outputting results: console | html. 
Default: console -d | --debug 
Set DEBUG log levels. 


调试 模式 


增加 的 -d 或 --debug 可 以 使 Shell 局 动 时 进入 调试 
(debug) 模式 ， 主 要 是 将 日 志 级 别 设置 为 DEBUG 级 别 ， 


并 让 Shell 打 印 出 与 Java stacktraces 信息 相似 的 backtrace 信 
局 、 o 


在 命令 行内 部 时 ， 可 以 通过 debug 命 令 来 切换 调试 模 


hbase(main):001:0> debug 


Debug mode is ON 


hbase(main):002:0> debug 


Debug mode is OFF 


fy A debug ?命令 可 以 查看 当前 的 调试 模式 是 否 已 经 
打开 : 


hbase(main):003:0> debug? 


Debug mode is OFF 


非 调试 模式 的 Shell 日 志 级 别 是 ERROR ， 并 且 根 本 不 会 
在 控制 台 上 打印 packtrace 信息 。 


Teoh, a ee a A SNL, (Ee dt 
项 只 在 控制 台中 可 用 。 


Shell 命 令 启动 时 默认 选择 $HBASE _HOME 中 的 配置 目录 。 用 户 可 
以 履 盖 默认 配置 目录 的 配置 ， 最 重要 的 是 可 以 连 授 到 不 同 的 集群 。 新 
建 包含 hbase-site.xml 文件 的 单独 目录 ， 配 置 
hbase .zookeeper .quorum 属 性 并 指定 另外 一 个 集群 ， 然 后 像 这 样 
启动 Shell: 


$ HBASE_CONF_DIR="/< your-other-config-dir 


>/" bin/hbase shell 


注意 ， 你 必须 要 指定 一 个 完整 目录 ， 而 不 仅仅 是 hbase-site.xml X 


6.4.2 命令 


所 有 的 命令 被 分 为 5 类 ， 分 别 代表 了 它们 之 间 的 语义 关系。 在 输入 
命令 时 ， 必 须要 遵循 一 定 的 规则 o 


引用 名 


表 名 和 列 名 时 必须 通过 单 引 号 或 双 引 号 对 其 进 
sped 


引用 值 


命令 行文 持 二 进 制 、 八 进 制 、 十 六 进 制 的 输入 和 输出 。 用 户 在 引 
用 时 必须 使 用 双 引 号 ， 否 则 Shell 将 把 它们 解释 成 文本 。 


hbase> get 't1',"key\x00\x6c\x65\x6f\x6e" 
hbase> get 't1',"key\000\154\141\165\162\141" 


hbase> put 't1',"test\xef\xff",'f1:',"\x01\x33\x70" 


注意 上 述 的 混合 引用 ， 用 户 必 须 确保 这 个 引用 值 是 正确 的 ， 否 则 
无 法 获得 预期 的 结果 。 


文本 在 香 引 号 内 将 被 当做 文本 对 每 ， 在 双 3 引 号 内 将 被 蔡 换 ， 比 如 
会 将 八进制 或 者 十 六 进 制 值 转换 成 字 廊 。 


使 用 去 号 分 隔 参数 
参数 之 间 需 要 使 用 喜 号 进行 分 隔 。 例 如 ; 


hbase(main):001:0> get 'testtable', 'row-1' 


"colfam1:quali' 


Ruby 散 列 属性 
本 一 些 命令 中 需要 设置 键 / 值 对 属性 。 使 用 Ruby 散 列 并 按 以 下 方式 来 
元 以: 


{'key1' => 'valuei','key2' => 'value2',...} 


键 / 值 对 需要 被 包括 在 花 括 号 中 ， 键 / 值 之 间 使 用 “=>” 分 隔 。 使 用 键 / 
值 模 式 赋 值 的 属性 通常 是 NAME、VERSIONS 或 COMPRESSION， 并 且 
不 需要 使 用 引号 。 例 如 : 


hbase(main):001:0> create 'testtable', {NAME => 


‘colfam1', VERSIONS => 1,\ 


TTL => 2592000,BLOCKCACHE => true} 


pO 


限制 输出 


get 命 令 有 一 个 用 于 限制 输出 结果 长 度 的 可 选 选项 ， 这 
对 输出 列 非 第 多 或 输出 值 比较 长 的 情况 非 第 有用。 限制 长 
度 可 以 得 到 快速 预览 值 ， 并 阻止 控制 台 打 印 超出 长 度 的 数 
据 ， 否 则 控制 台 会 很 快 变 得 难以 控制 。 


下 面 的 例子 中 ,插入 了 一 个 非常 长 的 值 ， 检 索 时 使 用 
MAXLENGTH 限制 了 返回 长 度 : 


hbase(main):001:0> put 


'testtable', 'rowlong', 'colfam1:qual1', 'abcdefghijk1lmnopqrstuvwxyzab 
cdefghi \ 


jk1lmnopqrstuvwxyzabcdefghij klmnopqrstuvwxyzabcdefghijklmnopqrstuvwx 
yzabcde \ 


xyzabcdefghijkimnopqrstuvwxyzabcdef ghijk1lmnopqrstuvwxyz ' 
hbase(main):018:0> get 'testtable', 'rowlong',MAXLENGTH => 


60 


COLUMN CELL 


colfami:qual1 
timestamp=130642457 7316, value=abcdefghij klmnopqrstuvwxyzabc 


pO 


MAXLENGTH 这 个 值 是 从 一 行 的 开头 开始 统计 ， 即 该 
包括 列 名 。 如 果 将 其 设置 为 控制 台 的 长 度 ， 它 可 以 更 好 地 
人 有 


每 一 个 命令 的 使 用 方法 都 可 以 通过 help'<command> ' 来 获取 详 
细 信 息 ， 例 如: 


hbase(main):001:0> help 'status' 


Show cluster status. Can be 'summary','simple',or 'detailed'. The 
default is 'summary'. Examples: 


hbase> status 

hbase> status 'simple' 
hbase> status 'Summary' 
hbase> status 'detailed' 


大 多 数 命 令 都 能 对 应 到 客户 端 API 或 具有 管理 功能 的 API 提 供 的 方 
法 。 后 面 儿 节 将 商 要 介绍 每 个 命令 以 及 这 些 API 的 匹配 关系 。 


1. 普通 命令 
表 6-1 列 出 了 常用 命令 。 这 些 命令 为 用 户 提供 了 获取 集群 详细 状态 


的 功能 ， 以 及 HBase 运 行 时 版 本 信息 。 详 情 见 5.2.5 廊 描述 的 
ClLusterStatus 类 。 


表 6-1 普通 Shell 命 令 


返回 clusterstatus 类 中 各 种 级 别 的 信息 。 通 过 帮助 可 以 查看 简单 
(simple) ` 总 结 (summary) 和 详细 (detailed) 状态 


status 


返回 当前 版 本 信息 、 仓 库 版 本 和 编译 信息 。 见 表 5.4 
ClusterStatus.getHBaseVersion() 方法 


Version 


2. 数据 定义 


表 6-2 列 出 了 所 有 DDL 命 令 ， 其 中 大 多 数 来 自 具 有 管理 功能 的 
API， 详 情 见 第 5 章 。 


删除 表 ， 详 情 见 5.2.2 节 中 的 deleteTable() 方法 


， 详 情 见 5.2.2 节 中 的 tableExists() 方法 


disabled 9 .2.2 节 中 的 isTablepisabled() 方法 


i 


Ae 
A SSAA, Fe .2.2 节 中 的 isTableEnabled() 方法 
人 


3. 数据 操作 


表 6-3 列 出 了 DML 操 作 ， 其 中 大 多 数 操作 来 自 于 客户 端 API， 详 情 
见 第 3 章 和 第 4 章 。 


表 6-3 ”DML 命令 


eet 内 部 使 用 ， 详 1 
EOUME 


eloton] | 类 似 于 gelete 但 不 仅仅 删除 一 列 ， 主 要 会 删除 一 个 列 族 或 列 ， 详 情 见 
SERESA 3.2.3 节 中 的 Delete 类 


i ‘ 


get _ 返回 一 个 计数 器 数值 。 这 个 和 get 命令 类 似 ， 但 是 它 将 计数 器 值 转换 成 
counter 了 可 以 阅读 的 数字 ， 详 情 见 3.2.2 节 中 的 Get 类 


给 计数 器 加 一 ， 详 情 见 4.2 节 中 的 Increment 类 


1 的 Put 类 


1 的 scan 类 


j 理 一 张 表 中 的 数据 ， Fdisable ` drop ` create 在 使 用 
下 顺序 执行 


表 6-4 列 出 了 工具 类 命令 ， 这 些 命令 都 来 自 于 管理 API， 详 情 见 
5.2.4 节 。 


表 6-4 工具 命令 


分 配 一 个 region 到 一 台 region 服 务 器 中 ， 详 情 见 5.2.4 节 中 的 assign() 方法 


oheB 一 切换 负载 均衡 状态 ， 详 情 见 5.2.4 节 中 的 balanceswitch() 方法 


switch 


启动 负载 均衡 ， 详 情 见 5.2.4 节 中 的 balancer() 方法 
关闭 一 个 region， 详 情 见 5.2. 1 的 closeRegion() 方法 
region 

J j Eregion ik “KRW AL ARE, FE ILS.2.477 compact () 


命令 


e í 
major _ J 
compact 


某 个 region 或 一 张 表 的 异步 刷 写 操作 ， 详 情 见 5.2.4 节 中 的 flush( ) 方 


ie 


5. 复制 


某 个 region 或 一 张 表 的 异步 强制 合并 


majorCompact() 方法 。 


个 region 到 不 同 的 服务 器 中 ， 详 情 见 5.2.4 世 中 的 move( ) 方法 


个 region 或 一 张 表 ， 详 情 见 5.2.4 节 中 的 split() 方法 


‘region, 详情 见 5.2. 1 的 unassign() 方法 


转 存 ZooKeeper 固 有 信息 到 HBase 中 ， 这 是 内 部 类 提供 的 特殊 功能 
HBase Master 的 Web UI 也 提供 了 类 似 的 信息 


表 6-5 列 出 了 复制 (replication) 的 命令 。 


_ peer 增 


disable _ peer 
ae 


remove _ 


peer 


表 6-5 ”复制 命令 


命令 


移 除 一 个 复制 单元 


命令 


start _ replication 开启 复制 进程 


stop _ replication 关闭 复制 进程 


6.4.3 ”脚本 


用 户 有 时 和 希望 脚本 是 交互 式 地 执行 ， 并 且 可 以 立即 得 到 返回 值 ， 
有 了 时 则 希望 通过 调度 系统 (如 cron 或 at) 定时 执行 一 个 命令 。 或 者 用 户 
可 以 使 用 Nagios 或 其 他 监控 工具 发 送 脚本 并 作出 反应 。 用 户 还 可 以 通过 
管道 (piping) 的 形式 运行 命令 : 


$ echo "status" | bin/hbase shell 


HBase Shell;enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 
Version 0.91.0-SNAPSHOT, r1127782,Thu May 26 10:28:47 CEST 2011 


status 
1 servers,® dead,44.0000 average load 


一 旦 这 个 命令 完成 ，Shell 会 自动 退出 ， 并 且 程 序 控制 权 会 返回 给 
调用 者 。 最 终 ， 用 户 也 可 以 在 一 开始 束 提 交 整 个 Shell 执 行 脚本 : 


$ cat ~/hbase-shell-status.rb 


status 
$ bin/hbase shell ~~/hbase-shell-status.rb 
1 servers,® dead,44.0000 average load 


HBase Shell;enter 'help< RETURN>' for list of supported commands. 
Type "exit< RETURN>" to leave the HBase Shell 


Version 0.91.0-SNAPSHOT, r1130916,Sat Jul 23 12:44:34 CEST 2011 


hbase(main):001:0> exit 


一 旦 脚本 执行 完成 ， 用 户 就 可 以 继续 在 Shell 中 执行 脚本 或 者 和 平 
时 一 样 退出 Shell。 用 户 可 以 通过 一 个 可 选 的 开关 直接 使 用 原生 JRuby 解 
释 器 ， 并 以 Java 应 用 的 模式 启动 脚本 ， 用 户 在 hbase 脚本 中 通过 设置 
path PEA DIEMER ava A 。 以 下 的 例子 获得 了 远程 集群 上 表 的 列表 


H/D: 


$ cat ~/hbase-shell-status-2.rb 


include Java 
import org.apache.hadoop.hbase.HBaseConfiguration 
import org.apache.hadoop.hbase.client .HBaseAdmin 


conf = HBaseConfiguration.new 

admin = HBaseAdmin.new(conf ) 

tables = admin.listTables 

tables.each { |table| puts table.getNameAsString() } 


$ bin/hbase org. jruby.Main ~/hbase-shell-status-2.rb 


testtable 


因为 Shell 基 于 Jruby 的 IRB， 所 以 我 们 可 以 使 用 它 的 内 置 功 能 ， 例 
如 ， 命 令 补 全 和 命令 历史 记录 。 启 用 这 个 功能 需要 在 home 目 录 中 创 
建 .irbrc 文件 ，Shell 启 动 时 会 自动 读 取 : 


$ cat ~/.irbre 


require 'irb/ext/save-history' 
IRB.conf[:SAVE_HISTORY] = 100 
IRB.conf[:HISTORY_FILE] = "#{ENV['HOME']}/.irb-save-history" 


局 动 命令 行 历史 记录 能 够 保存 执行 过 的 Shell 命 令 。 命 令 补 全 已 经 
被 HBase 脚 本 启用 了 。 
交互 式 解释 器 拥有 可 以 直接 调用 HBase 类 和 功能 函数 的 优点 ， 例 


如 ， 一 些 应 用 要 求 必须 写 Java 程 序 。 下 面 的 例子 将 二 进 制 字 节 数组 通过 
Bytes.toBytes() 调用 转化 为 了 整 型 : 


hbase(main) :001:0> 
org.apache.hadoop.hbase.util.Bytes.toInt(\ 


"\x00\x01\x06[".to_java_bytes) 


=> 67163 


Wa 


ex lg 
ww ue 
一 人 注意 Shell 如 何 将 前 3 个 不 可 见 字 符 编码 为 十 六 进 制 
值 ， 而 第 4 个 字符 “[* 则 作为 一 个 字符 打印 。 


为 一 个 例子 整 古 将 日 期 类 型 转化 为 Linux 时 间 数 ， 然 后 再 将 其 转化 
为 人 类 可 读 的 日 期 : 


hbase(main):002:0> java.text.SimpleDateFormat.new("yyyy/MM/dd 
HH:mm:ss"). parse(\ 


"2011/05/30 20:56:29") .getTime( ) 


=> 1306781789000 


hbase(main):002:0> java.util.Date.new(1306781789000) .toString() 


=> "Mon May 30 20:56:29 CEST 2011" 


re 最 后 ， 还 有 循环 添加 数据 的 例子 ， 例 如 ， 填 充 测试 数据 到 测试 


hbase(main):003:0> for i in 'a'..'z' do for j in 
"a'..'z' do put 'testtable',\ 


"row-#{i}#{j}","colfam1:#{j}","#{j}" end end 


一 个 更 复杂 的 填充 计数 可 能 如 下 : 


hbase(main):004:0> require 'date'; 


import java.lang.Long 


import org.apache.hadoop.hbase.util.Bytes 


(Date.new(2011,01,01)..Date.today).each { |x| put 
"testtable", "daily", \ 


"colfami:" + x.strftime("%Y%m%d") , Bytes. toBytes(Long.new(rand * \ 


4000) . longValue) . to_a.pack('"CCCCCCCC" ) } 


很 明显 地 ， 这 些 看 起 来 就 像 是 Ruby 本 身 的 功能 。 如 果 用 户 拥有 一 
些 其 他 语言 的 编程 技巧 ， 残 能够 很 容易 地 使 用 基于 Shell 提 供 的 IRB 功 
能 。 这 是 一 个 由 简单 到 复杂 的 ”过 程 。 
6.5 ”基于 Web 的 UI 

HBase 提 供 了 基于 Web 的 用 户 接口 (简称 UI) ， 通 过 Web UI 可 以 查 
看 集群 状态 以 及 数据 表 的 服务 状态 。 其 中 大 多 数 功 能 是 只 读 的 ， 但 也 
有 少量 功能 可 以 通过 Web ULAR ° 
6.5.1 master 的 UI 

HBaseJaia Y Web UI 并 列 出 了 其 所 有 重要 属性 。master 的 Web 默 认 
端口 是 60010，region 服 务 絮 的 Web 默 认 问 口 是 60030。 如 采 master 运 行 


在 默认 器 口 上 ， 并 且 服 务 器 的 名 称 为 master.foo.com， 那 么 HBase Web 
的 访问 地 址 就 是 http://master.foo.com:60010 ° 


ae. | 4 
| aY 上 
一 Web 服 务 器 端口 可 以 通过 配置 文件 Pbpase-site.xml 来 
修改 ， 其 属性 包括 : 


hbase.master.info.port 
hbase.regionserver.info.port 


1. 主页 


图 6-2 展 示 了 集群 Web UI 的 主页 。 在 这 个 页 面 中 ， 用 户 可 以 查看 
HBase 集 群 的 当前 状态 、 提 供 服 务 的 表 和 region 服 务 絮 等 。 
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图 6-2 HBase Master UI 
页 的 信息 划分 为 以 下 几 类 。 
Master Attributes 


表格 的 顶部 显示 了 集群 的 粗 粒 度 信息 ， 包 括 HBase 的 版 本 、Hadoop 
的 版 本 、 当 前 HBase 集 群 在 HDFS 中 的 根 目录 也、 平均 负载 、 
ZooKeeper 的 连接 地 址 。 


此 外 ， 还 有 gece 链接 可 以 查看 HBase 当 前 存储 在 
ZooKeeper 中 的 信息 ， 详 情 见 8.7 节 。 


Running Tasks 


主页 中 的 下 一 组 信息 描述 了 当前 正在 执行 的 任务 (currently 
running tasks) 。master 执 行 的 每 个 正在 运行 的 内 部 操作 都 被 列 在 这 
里 ， 并 等 待 其 执行 完成 。 白 色 背 景 表示 正在 执行 的 任务 ， ee 
示 已 茎 成 功 完成 的 企 务 黄色 背景 表示 已 经 被 撤销 的 任务 
状态 不 一 致 而 操作 失败 时 会 发 生 此 类 情况 。 图 6-3 展 示 | 
任务 、 一 个 正在 执行 的 任务 和 一 个 失败 的 任务 。 


Currently running tasks 


Description Status Age 
shed 9 g (more than of equal ID) 120291 bytes in 2 bog files in 45s 
Doing disanbuted log split in " 4 es > SOTE LOTT 
- z 二 二 Noe DOAN se J42.1.3.74.6000,.130684976197 C 
hdfsocalhost: BO hbase Jogs!42.1 3.74 60020,1 306849761977 cp dbase Jogs/42.1 3,7 | 761977 in Papa orga 


45s 
Checking directoey comments (Completed 
25 ago) 


~~ foe ~~ St OD = Jy nh iog s/10.132.225.53.60020.1 306687635971 


Master st anup Assagning META region 


图 6-3 ”当前 集群 正在 执行 的 任务 


Catalog Tables 


本 节 有 两 张 表 ，.META. 和 -ROOT- ， 用 户 点 击 表 名 可 以 查看 表 的 
详细 人 信息， 例如， 哪些 服务 器 加 载 了 这 张 表 。 


User Tables 


用 户 可 以 通过 此 页 面 查 看 当前 HBase 集 群 的 数据 表 ， 这 些 表 都 是 用 
户 通过 API 或 HBase Shell 所 创建 的 表 。 表 格 属性 列 展示 了 表 描 述 ， 其 中 
包含 了 所 有 的 列 族 描述 ，5.1 节 解释 了 如 何 阅 读 它们 。 


扩 击 表 名 可 以 链接 到 男 一 个 页 面 ， 具 体内 容 见 本 书 “ 用 户 表 信息 页 
面 ” 中 的 介绍 。 


Region Servers 


文 个 表格 显示 了 master 知 晓 的 所 有 region 服 务 器 。 这 张 表 列 出 了 地 
址 ， 用 户 点 击 该 地 址 可 以 获取 到 更 详细 的 信息 。 He Bergin 
务 器 的 启动 码 (启动 时 间 惟 表示 的 ID) 和 服务 器 负载 等 信息 。 详 情 见 
5.2.5 节 ， 尤 其 是 HServerLoad 类 。 


Regions in Iransition 


处 于 打开 中 、 关 闭 中 和 拆 分 中 的 region 都 会 出 现在 这 一 队列 中 ， 执 
行 操作 前 ， 将 region 加 入 到 这 个 列表 中 ， 操 作 完 成 后 ， 将 region 从 这 个 
列表 中 移 除 。8.6 描 述 了 region 的 所 有 可 能 状态 。 图 6-4 展 示 了 正在 拆 
分 中 的 region。 


图 6-4 master Web UI 中 展示 的 处 于 事务 中 的 region 


2. 用 户 表 信 息 页 面 


用 户 点 击 表 链 接 会 进入 已 选择 的 表 的 信息 页 面 。 图 6-5 展 示 了 用 户 
表 信 息 页 面 的 精简 版 (只 显示 了 部 分 region) ° 


用 户 表 信 息 页 面 展 示 了 如 下 儿 类 信息 。 
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图 6-5 ”所 选 的 表 的 相关 信息 页 面 


Table Attributes 


显示 了 表 自 身 的 信息 ， 1 包括 表 状 态 (table status) ， 即 表 是 否 可 
用 。 显示 om eee oe 显示 结果 为 false 则 表示 表 当 前 被 
禁用 。 详 情 见 5.2.2 节 的 disableTable() 调用 。 


布尔 值 描述 了 表 是 否 被 局 用 ， 所 以 当 你 在 这 一 列 中 看 见 true 时 则 
表明 表 被 启用 了 。 相 反 地 ，flase 就 表示 表 目 前 被 禁用 。 


Table Regions 


个 表格 列 出 了 当前 表 中 所 有 的 region 。 其 中 包括 了 region 和 名、 所 
aia 《该 地 址 链接 到 部 署 该 region 的 服务 器 UI， 详 情 见 6.5.2 
TY o 


有 时 表格 会 显示 未 部 署 (not deployed) 的 信息 ， 这 一 字段 本 来 应 
该 显示 这 个 region 在 哪 台 服务 右 中 服务 。 这 是 因为 该 region 尚 未 在 任何 
一 台 服 务 器 中 提供 服务 。 图 6-6 展 示 了 这 个 情况 的 例子 。 
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图 6-6 region 没 有 被 任何 服务 器 加 载 则 显示 未 部 团 


Start Key 与 End Key 列 展示 了 region 的 起 始 行 键 和 终止 行 键 。 最 
后 ，Requests 列 显示 了 从 region 部 署 到 现在 region 的 每 各 请求 数 包括 了 
所 有 读 (get 和 scan) 和 写 (put 和 和 delete) 操作 。 


Regions by Region Server 


最 后 一 个 属 性 格 显 示 了 每 个 region 服 务 絮 加 载 的 当前 表 的 region 数 
量 ， 通 常 这 些 数值 比较 平均 。 如 果 这 些 数值 不 够 平均 ， 用 户 可 以 手动 
使 用 HBase Shell 或 者 具有 管理 功 的 API 初 妈 化 负载 均衡 器 或 执行 
move 命令 重新 均衡 表 的 负载 〈 详 情 见 5.2.4 节 ) ° 


当前 页 面 还 提供 了 针对 特定 region 和 整 表 的 管理 功能 。 详 情 见 5.2.4 
万 以 及 11.4 放 。 以 下 是 页 面 中 的 可 用 操作 © 


Compact 


这 里 可 以 触发 合并 (compact ) 操作 ， 该 操作 在 后 台 异 步 执 行 。 
执行 该 命令 时 设置 region 名 更 具有 选择 性 ，region 名 可 以 从 上 面 的 表 中 
找到 ， 即 Table Regions 表 中 的 Name 列 的 值 。 


”在 复制 region 名 时 ， 一 定 要 将 尾部 的 “包括 在 内 ! 


5 如 果 没 有 设置 region 名 ， 合 并 操作 会 将 全 表 的 所 有 region 作 为 目 
未 。 


Split 


类 似 于 合并 操作 ， 拆 分 以 单个 region 或 全 表 为 目标 。 但 是 ， 并 非 所 

有 的 region 都 能 执行 拆 分 ， 例 如 ， 一 些 不 包含 数据 或 包含 非常 少数 据 的 

region, 或 已经 执行 拆 分 扣 作 但 并 未 执行 合并 操作 的 region 均 不 能 执行 
分 操作 。 


一 旦 触发 其 中 一 个 操作 ， 用 户 会 进入 到 一 个 确认 页 面 ， 例 如 ， 执 
Tika iS aa eB: 


Split request accepted. 


Reload. 
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3. ZooKeeper 页 面 


在 摘 述 列 中 有 一 个 链接 可 以 让 用 户 转 存 HBase 所 有 在 ZooKeeper 中 
存储 的 信息 。 这 个 页 面 会 显示 所 有 HBase 存 储 在 ZooKeeper 中 的 和 点 ， 
这 对 于 查看 集群 状态 并 解决 问题 很 有 用 (详情 见 12.5 节 ) 。 


这 个 页 面 展 示 了 与 使 用 HBase Shell 调 用 zk_dump 操作 相同 的 信息 。 
它 展示 了 HBase 在 配置 文件 系统 中 的 根 目 录 ， 用 户 可 以 看 到 当前 的 
master 地 址 、-ROOT- 表 地 址 和 所 有 提供 服务 的 region 服 务 絮 。 图 6-7 展 
示 了 ZooKeeper 页 面 的 示例 输出 。 


e 
í | ): ZooKeeper Dump 


HBASE 
Master, Local logs, Thread Dump, Log Level 


BBase is rooted at /hbase 

Master address: localhost, 60000, 1306663023371 

Region server holding ROOT: localhost,60020, 1306663024434 
Region servers: 


localhost ,60020,1306663024434 
Quorum Server Statistics: 

localhost:2181 

Zookeeper version: 3.3.2-1031432, built on 11/05/2010 05:32 GMT 

Clients: 
£2080:0:0:0:0:0:02101:54451(1) (queved«0, recved=298 , sent=300) 
/£080:0:0:0:0:020: 182:55217(1)} (queved=0, recved=283,sent+283) 
/2080:0:0:0:0:0:02181:52307[ 1) (queved«0, recved=634,sent=638) 
/0:0:0:0:0:0:0:1%0:59324[ 1) (queued=0, recved=6897,sent*6901) 
4020:0201010:01180:54449/ 1) {queved=0, recved=870, sent=877} 
/127.0.0.1:60703(0) (queved«0, recved=1,sent=0) 
/020:0:0:0:0:0:180:64611( 1) {quevued=0, recved«12815, sent=12824) 
/127.0.0.1:544642(1) (queved=0, recved=316,sent=318) 
/fe80:0:0:0:0:0:0:1%1:54433{ 1) (queued«0, recved=1141,sent=1549) 


Latency min/avg/max: 0/0/780 
Received: 274270 

Sent: 276689 

Outstanding: 0 

Zxid: 0x90a4a 

Mode: standalone 

Node count: 19 


图 6-7 ZooKeeper 页 面 ， 列 出 了 HBase 和 ZooKeeper 的 一 些 细节 ， 调 试 HBase 的 安装 过 程 中 很 有 
用 


6.5.2 ”region 服 务 器 的 UI 


region 服 务 句 提供 了 独立 的 基于 Web 的 UI， 用 户 通 常 可 以 通过 在 
master 的 UI 中 操 击 提供 的 服务 右 名 字 链 接 进 行 访问 。 用 户 也 可 以 直接 
输入 以 下 地 址 进行 询问 。 


http://< 
region-server-address 


主页 


region 服 务 器 主页 提供 了 当前 进程 的 细节 信息 、 任 务 以 及 加 载 的 
region。 图 6-8 展 示 了 这 个 页 il) MAUL 列 出 了 当前 的 任 
务 列表 、region， 为 了 市 省 空间 ，region 的 名 字 被 缩短 了 。 


Region Server: localhost:60020 
Local legs, Thora Dump, Log Level 
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Region names are made of the costaining table's aame. a comm, the samt key, a comma, and a randomly penetrated region id. To Buse, Lo. 
domana apache org SSANIA 1205607 is to the table deweains, has an ad of 5464822421 26407 and the firm key i the region is apache arg 

ROOT- and META. ‘ables’ are inaereal sytem (or ‘catalog’ tables in @-speak). The -ROOT- keeps a list of ali regions in the META. table. The META. ute 
keeps a Sst of all regions in the syaem, The emery key ts used W denote table start and table end. A region wih an empty uan key i the first eegion is a table. If 
Mpon has bod an empty siart and an empty end key, its che ondy regine in the table, See HBe Home for Surber explication 


图 6-8 Region Server 主 页 


显示 信息 分 以 下 几 个 部 分 。 


Region Server Attributes 


这 组 信息 包含 了 正在 运行 的 HBase 版 本 信息 、 编 译 时 间 、 服 务 进程 
的 监控 指标 和 正在 使 用 的 ZooKeeper 连 接地 址 。 关 于 监控 指标 在 10.2.3 
节 中 有 详细 解释 。 


Running Tasks 


这 个 表格 列 出 了 当前 正在 执行 的 任务 ,日 色 背 景 表 示 正 在 执行 的 
任务 ， 绿 色 青 景 表 示 已 经 成 功 完 成 的 任务 ， 黄 色 表 景 表 示 已 经 被 撤销 
的 任务 。 失 败 任务 或 已 完成 的 任务 会 在 一 分 钟 之 内 被 移 除 。 


Online Regions 


用 户 在 这 里 可 以 看 到 当前 机 万 加 载 的 所 有 region 人 信息， 包括 region 
名 、 起 始 与 终止 行 键 和 region 监 探 信息。 


653 ”共享 页 面 


master、region 服 务 器 和 表 的 主页 都 有 少量 通用 的 页 面 链接 到 子 页 
面 ， 以 显示 或 者 控制 额外 的 细节 。 


本 地 日 志 
这 是 一 个 不 需要 登录 服务 器 只 需 点 击 链 接 便 可 以 访问 日 志 的 便捷 


方式 ， 它 会 列 出 1og 目录 下 所 有 的 日 志文 件 ， 用 户 可 以 任意 选择 并 访 
问 ， 详 情 见 12.5.2 节 。 图 6-9 展 示 了 当前 的 例子 。 


581480 bytes May 29, 2011 12:58:08 PM 
985818 bytes May 16,2011 11:58:11 PM 
99460809 bytes May 17, 2011 11:59:49 PM 
1495814 bytes May 18, 2011 11:56:54 PM 
1254398 bytes May 23, 2011 11:57:47 PM 
169627 bytes May 24, 2011 11:57:37 PM 
112382 bytes May 25, 2011 11:57:47 PM 
413021 bytes May 26,2011 11:59:47 PM 
114861 bytes May 27,2011 11:59:55 PM 
103291 bytes May 28,2011 11:59:59 PM 
O bytes May 29, 2011 11:57:01 AM 
8927 bytes May 29, 2011 11:56:28 AM 
8927 bytes May 26, 2011 2:04:21 PM 
10684 bytes May 26, 2011 8:52:55 AM 
8942 bytes May 23, 2011 3:25:19 PM 
O bytes May 23, 2011 9:21:35 AM 
993370 bytes May 29, 2011 12:58:54 PM 


图 6-9 ”本 地 日 志 页 


EY 


线程 转 储 


基于 调试 的 目的 ， 用 /通过 此 页 而 可 以 碍 看 正在 运行 的 HBase 进 程 
的 Java stack traces 信 息 ， 详 情 见 12.5 节 。 图 6-10 展 现 了 示例 输出 。 


Process Thread Despi 
55 active threads 
Thread 265 (4097545080gtp-8711265399-22): 
State: AUNMABLE 
Blocked coust: 11 
Maited count: 11 
Steck: 
PUN. Ranagement. Threadinp).getThreadiato0(Native Method) 
fun. sanagement .Threedimp! .getThreadiafo( Threading! . java:147) 
oun Bonagement, Threading] .getThreadiafo( Threading]. java:123) 
org. apache.madoop.uti! Reflect ionltiis.printThreadinfo(ReflectsonUtils, jawart49) 
org.apeche.hadoop.http.BttpSerwer$StackServlat .doGet (NttpSerwer. java: 513) 
javax.cerviet http. dttggervlet .service(Httpserviet. java:707) 
javax. serviet. http. ittpServlet .service(HttpServiet.java: 820) 
org.sortbay. jetty.serviet.Serv lettolder.handle(Serviettolder.java:5i1) 
org. mortbay. jetty serviet.Servlethaadier. handle(serviethandler. j 
org. rorthay. jetty. security.fecurityRardler,.handle( SecorityHandl 
org.sortbay. jetty. servlet .Sess ionitasdler.handle(Sessiontiandler. java: 162) 
org mortbay. jetty. handler .contextHaadler , handle(Contexthandler, javar766} 
org morthey. jetty. webapp. BebAppContert . handle (WebAppContext . java: 450] 
org.sortbay-jetty.handler.ContextitlasdierCol lecticoe.handls|CoetextBandlercol lection. java:230) 
org mortbay, jetty, handler. Hand lerWrapper . handle(#andlerWrapper . java: 152) 
org. morthay.jetty.ferver. handle | Server. java: 326) 
org.sortbay. jetty. NttpComaection.handleRequeat(MttpConnectioe. jave:542) 
org. sortbay. jetty. HttpComsect ionsRequesttandler . headerCosplete(BttpConnection. java:928) 
Bortbay.jetty.AittpPareer.p Next (HttpParser.jawa:549) 
-Boctbay. jetty. MttpParser.parseAvailaeble|ittpPareser. java:2i2) 
Tar 256 (2109S89600qtp~973126399~-20)+ 
State: TIMED HATTING 
Blocked couat: 159 
Waived counts 157 
Steck: 
jevea.lang.Cbject.wait(Mative Method) 
org mortbay. thread, QuevedThresdreols Pool Thread, rus (QeevedThreadPool . jover4é24) 
Thread 76 (MASTER_SERVER_OPERATIONS-locaitost ,60000, 1306663023371-2)3 
Stete: WAITING 
Blocked coust: 106 
Msited counts $9 
Maiting on java.util.conewrrent. locks .AbstractQueuedSynchronizer§sConditionObject #i06ifSaf 
Stack: 
won. piec.Qeeafe,park(Mative Hoshod) 
java.util.concurrant.locts.LockSupport.park |LockSupport .jave:iS8) 
java. util.coscurrent. locks. AbstractQuesedsynchromizer$Condltioeobject . await (AbstractQquevedsynchronlzer. java:1987) 
java.util .concurrent .LinkedBlowk ingQeess. take(LinkedBlockingQuese. java: 399) 
java.util concurrent .ThreasdPoo lfzecutor.getTask(ThreadPoolfzecutor.java:947) 
java.util concurrent . TaresdPoo lExecutortvorker . rus (ThreadPoolfxecetor . java:$07) 
teve, dang, Threed, cun(Thread, ieverét?) 


图 6-10 “线程 转 储 页 面 
日 志 级 别 


这 个 链接 对 应 的 页 面 允 许 用 户 获 取 并 重 设 HBase 进 程 的 日 志 级 别 ， 
详情 见 12.4 节 。 图 6-11 展 示 了 页 面 布 局 。 


Hadoop. 2011. 


图 6-11 日 志 级 别 页 面 


例如 ， 我 们 在 第 一 个 格 中 输入 org,apache ,hadoop ,hbase , 
然后 点 击 Get Log Level 按 钮 ， 会 得 到 图 6-12 所 展示 的 结果 。 


Log Level 


Results 

Submitted Log Name: org.apache.hadoop.hbase 

Log Class: org.apache.commons. logging impl.Log4JLogger 
Effective level: DEBUG 

Get / Set 

Log: | (Get Log Level ) 


Log: Level: ( Set Log Level ) 


Hadoop, 2011. 


图 6-12 “日志 级 别 结果 页 面 


HBase 服 务 提供 的 Web UI 是 快速 获取 集群 状态 、 查 看 表 信息 等 操作 
alee 。 用 户 也 可 以 使 用 HBase Shell 来 达到 这 个 目的 ， 但 是 这 依赖 
as Nae 


用 户 可 以 使 用 UI 和 触发 选 定 的 管理 操作 ， 但 并 不 是 每 个 用 户 都 有 权 
如 此 操作 : 类 似 于 Shell， 这 些 管理 操作 最 好 由 集群 管理 员 负 责 。 


如 采用 户 需 要 建 表 、 删 表 、 操 作 表 等 操作 ， 最 好 通过 HBase 上 额外 
~ 例如 ， 使 用 Thrift 或 REST 作 为 网 天 服务 右 提 供 此 类 服务 给 最 终 


® 见 Roy T. Fielding 在 2000 年 发 表 的 文章 “Architectural Styles and the 
Design of Network-based Software Architectures” ( 
http://www. ics.uci.edu/~fielding/pubs/dissertation/top.html ) 。 


© 见 SOAP 的 官方 文档 〈 http:/www.w3.org/TR/soap/ ) 。SOAP 全 称 是 
Simple Object Access Protocol，SOAP 使 用 HTTP 作 为 传输 协议 ， 但 每 个 
服务 都 拓展 了 一 个 不 同 的 API。 


© 见 官 方 Protocol Buffer 项 目 网 站 http://code.google.com/p/protobuf/ ° 
@ 见 Thrift 项 目 网 站 hetp://thrift.apache.org/ ° 
© J Apache Avro 项 目 网 站 http://avro.apache.org/ ° 


cure R ty 命令 行 传 输 数 据 的 工具 ， 支 持 的 协议 繁 
。 详情 见 该 项 目 网 站 http:/curl.haxx.se/ ° 


D 基本 思路 是 任何 非 安全 的 或 不 可 打印 的 字符 都 用 %+ASCII 来 表示 . A 
为 它 使 用 百 分 号 为 前 约 ， 它 也 被 称 为 百分比 编码 ， 有 天 详情 用 户 可 以 
查阅 维基 百科 hetp://en.wikipedia.org/wiki/Percent-encoding ° 


详情 见 维基 百科 关于 Base64 的 页 面 ( 
http:en.wikipedia.org/wiki/Base64 ) 。 


@ http://hive.apache.org/ ° 


见 Hive Wikiwiki 页 面 
http://wiki.apache.org/hadoop/Hive/StorageHandlers ， 查 看 有 关 存 储 处 理 
REZAT ° 

QD Hive Wikiwiki H H ( 
http://wiki.apache.org/hadoop/Hive/HBaselIntegration ) 完整 地 解释 了 
HBase 如 何 与 Hive 集 成 。 

(12) http://pigapache.org/ ° 


B 内 部 使 用 RowFilter 类 ， 详 情 见 4.1.2 节 的 “RowFiLter ”。 


在 Pig 安 装 页 面 http://pig.apache.org/docs/r0.8.0/setup.html 中 可 查看 完 
整 信息 。 


5) 详情 见 Ruby 页 面 网 站 http:/www.ruby-lang.org/。 


四 不 能 使 用 /tmp ， 否 则 一 旦 机 器 重启 会 丢失 数据 ， 详 情 见 2.1 节 。 


第 7 章 ” 与 MapReduce 集 成 


HBase 最 大 的 特点 之 一 就 是 可 以 紧密 地 与 Hadoop 的 MapReduce 框 染 
集成 。 下 面 我 们 将 介绍 如 何 利 用 这 些 特点 ， 同 时 HBase 的 某 些 特性 如 何 
发 挥 其 优势 。 


7.1 框架 


在 介绍 如 何在 MapReduce 中 使 用 HBase 之 前 ， 我 们 先 看 一 下 
MapReduce 中 的 一 些 基 本 概念 。 


7.1.1 MapReduce 介 绍 


MapReduce 被 设计 为 在 可 扩展 的 方式 下 解决 超过 TB 级 数据 处 理 过 
程 中 的 问题 。 应 当 有 一 种 方法 可 以 建立 一 个 性 能 随机 器 数 增加 而 线性 
提升 的 系统 ， 这 就 是 MapReduce 努 力 要 做 到 的 。 它 遵守 分 治 原 则 ， 通 过 
将 数据 拆 分 到 分 布 式 文件 系统 中 的 不 同 机 器 上 ， 让 服务 右 (CPU 或 新 
式 的 内 核 ) 能 尽快 直接 访问 和 处 理 数据 。 这 种 方法 的 问题 是 用 户 最 终 
需要 合并 全 局 结果 。 同 样 ，MapReduce 为 解决 这 个 问题 将 其 内 置 了 。 图 
7-1 提 供 了 这 个 过 程 的 高 层 概 咒 。 


下 面 这 张 图 非常 简明 地 展示 了 MapReduce 处 理 数据 的 过 程 。 首 先 它 
会 可 靠 地 将 输入 的 数据 拆 分 成 大 小 合理 的 块 ， 然 后 服务 需 每 次 处 理 一 
个 块 。 一 般 来 说 ， 拆 分 工作 需要 尽 可 能 地 利用 可 用 的 服务 器 和 基础 设 
施 。 图 示 中 的 数据 可 以 古 非 常 大 的 日 志文 件 ， 处 理 时 被 划分 为 大 小 相 
等 的 分 片 ， 这 样 做 非常 适合 处 理 如 Apache 日 志 类 型 的 文件 。 输 入 的 数 
据 也 可 以 是 二 进 制 文件 ， 但 是 此 时 用 户 需要 实现 自己 的 getSplits() 
方法 ， 同 时 也 有 可 能 需要 涉及 以 下 内 容 。 


RecordReader 


InputFormat 
Key Class 1 [Value Class 1 p 
Key Class 1 [Value Class 1 


Mapper 
Key Class 2 [Value Class 2 


Shuffle 


Key Class 2 [Value Class 2 


Reducer 


Key Class 3 [Value Class 3 


Key Class 3 |Value Class 3 
pi 


MapReduce Framework 


图 7-1 MapReduce 过 程 


7.1.2 类 


上 图 也 展示 了 与 Hadoop MapReduce 实 现 相 关 的 一 些 类 。 下 面 介绍 
它们 的 功能 以 及 HBase 中 提供 的 基于 它们 的 具体 实现 。 


Ud 


5 Hadoop 0.20.0 版 本 提供 了 一 套 新 的 MapReduce 
API。 这 些 类 在 mapreduce 包 中 ， 之 前 的 类 在 mapred 包 
中 。 旧 的 API 已 经 不 推荐 使 用 了 ， 并 且 原 计划 在 0.21.0 版 本 中 
被 废弃 ， 不 过 最 终 因 为 新 API 的 功能 不 完整 而 搁置 ， 所 以 旧 
的 API 并 没有 被 废弃 。 


HBase 中 也 有 两 个 稍 有 不 同 的 包 。 新 的 API 更 被 社区 文 
持 ， 所 以 基于 它 的 写作 业 不 受 Hadoop 改 动 的 影响 。 本 章 只 介 


绍 新 的 API ° 


1. InputFormat 


第 一 个 接触 到 的 类 是 InputFormat ( 见 图 7-2) ， 它 负责 两 件 事 
E: 第 一 件 是 拆 分 输入 数据 ， 同 时 返回 一 个 RecordReader 实例 ， 这 
个 实例 定义 了 键 值 对 象 的 类 ， 并 提供 了 next'( ) 方法 来 遍历 输入 的 数 
据 。 


就 HBase 而 言 ， 它 提供 了 一 组 专用 的 实现 ， 叫 做 
TableInputFormatBase ， 该 实现 的 子 类 是 TableInputFormat 
° TableInputFormatBase 实现 了 其 中 的 大 部 分 功能 ， 但 仍旧 是 抽 
象 类 ， 它 的 子 类 TableInputFormat 是 一 个 轻 量 级 的 实体 类 版 本 ， 同 
时 也 被 很 多 我 们 提供 的 例子 和 真实 的 MapReduce 类 使 用 。 


abeiptfornabas 


+getSplits(): InputSplit(0..*} +getSplits(): TableSplit(0.."] 
+createRecordReader(): RecordReader +createRecordReader(): TableRecordReader 


TableSplit =- Tablelnputformat ->j TableRecordReader 


图 7-2 InputFormat 类 的 层次 结构 


这 些 类 提供 了 一 个 扫描 HBase 全 表 的 实现 。 用 户 需要 提供 一 个 
Scan 实例 : 设置 起 止 行 键 、 添 加 过 滤器 和 指定 版 本 数目 等 。 
TableInputFormat 将 表 拆 分 成 大 小 合适 的 块 ， 同 时 交 给 后 面 的 
MapReduce 过 程 处 理 。 如 何 拆 分 表 的 细节 参见 7.1.5 广 。 


2. Mapper 


Mapper 类 构成 了 MapReduce 过 程 的 下 一 个 阶段 ， 同 时 也 是 其 命名 
的 原因 之 一 ( 见 图 7-3) 。 在 这 一 阶段 中 ， 从 RecordReader 读 到 的 每 
一 个 数据 都 由 一 个 map( ) 方法 来 处 理 。 这 些 在 图 7-1 中 也 有 介绍 。 
Mapper 读 取 一 组 特定 的 键 / 值 对 ， 但 是 可 能 会 输出 其 他 的 类 型 。 这 个 


al FE 党 便于 将 原始 数据 转化 为 更 有 用 的 数据 类 型 ， 以 做 进一步 处 


TableMapper ldentitylableMapper 


Al7-3 Mapper 类 的 层次 结构 


HBase 提 供 了 一 个 TableMapper 类 ， 将 键 的 类 型 强制 转换 为 一 个 
ImmutableBytesWritable ， 同 时 将 值 的 类 型 强制 转换 为 Result 
类 型 ， 这 些 构 成 了 TableRecordReader 类 返回 的 结果 。 


有 一 个 TableMapper 的 特殊 实现 是 IdentityTableMapper , 
它 也 是 一 个 展示 如 何 将 自己 想 要 的 功能 添加 到 HBase 提 供 的 类 中 的 比较 
好 的 例子 。TableMapper 类 没有 实现 任何 实际 的 功能 ， 它 只 是 添加 了 
键 / 值 对 的 签名 。IdentityTableMapper 只 是 简单 地 把 键 / 值 对 传 到 
下 一 个 处 理 阶 段 而 已 。 


3. Reducer 


Reducer 阶段 和 类 的 层次 结构 〈 见 图 7-4) 与 之 前 介绍 的 Mapper 
阶段 十 分 相似 。 这 次 我 们 得 到 了 Mapper 类 的 输出 ， 同 时 这 些 输出 会 经 
过 shuffle 和 sort 处 理 。 


在 Mapper 和 Reducer 阶段 间 的 内 部 shuffle 阶 段 中 ， 每 个 不 同 的 
Map 输 出 的 中 间 结 果 都 会 被 复制 到 Reduce 服 务 器 ， 同 时 sort 阶 段 会 将 所 
有 经 过 suffled (copied) 阶段 处 理 的 数据 进行 联合 排序 ， 这 样 Reducer 
得 到 的 中 间 结 果 就 是 一 个 已 排序 的 数据 集 ， 在 这 个 数据 集中 ， 每 一 个 
特定 的 键 与 它 所 有 可 能 的 值 关联 在 一 起 。 


en) TableReducer IdentityTableReducer 


Al7-4 Reducer 类 的 层次 结构 


4. OutputFormat 


最 后 阶段 由 OutputFormat 类 处 理 〈 见 图 7-5) 。 它 的 工作 是 将 数 
据 持 久 化 到 不 同 的 位 置 。 这 里 提供 了 一 些 具 体 实 现 来 允许 结果 能 被 输 
出 到 文件 或 者 HBase 表 中 。 输 出 到 HBase 表 中 时 ， 用 户 可 以 使 用 
TableOutputFormat 类 。 它 使 用 TableRecordwriter 类 将 数据 
写 到 特定 的 HBase 表 中 。 


ET 


i, 
+getRecordWriter(): RecordWriter +getRecordWriter(): TableRecordWriter 
+createOutputCommitter(): OutputCommitter +getOutputCommitter(): TableOutputCommitter 


LY `y 


TableRecordWriter TableOutputCommitter 


图 7-5 OutputFormat 类 的 层次 结构 


同时 也 需要 注意 一 下 基数 。 一 般 情 况 下 ， 有 许多 Mapper 将 记录 传 
输 给 Reducer ， 但 是 只 有 一 个 0utputFormat 处 理 它 对 应 的 
Reducer 输出 。 这 是 最 后 一 个 用 于 处 理 键 / 值 对 并 将 它们 写 到 最 终 存 储 
位 置 的 类 ， 这 个 存储 位 置 可 以 是 文件 或 者 表 。 


Hadoop 类 需要 TableOutputcommitter 类 来 实现 它们 的 功能 。 
如 果 不 需 要 HBase 来 存储 数据 ， 则 它 是 一 个 空 类 ， 并 没有 实现 实际 的 功 
能 。 不 过 其 他 OutputFormat 的 实现 需要 这 个 类 。 


当 创建 作业 时 ， 输 出 表 的 名 字 就 已 经 被 指定 了 。 除 此 之 外 ， 
TableOutputFormat 不 会 增加 其 他 复杂 性 。 其 他 值得 注意 的 是 ， 表 
的 缓冲 区 自动 刷 写 被 关闭 ， 同 时 缓 神 区 由 系统 内 部 自动 管理 。 这 对 提 
e e 。 请 参阅 11.7 节 来 了 解 如 何 提高 扫 
苗 的 性 能 。 


7.1.3 “支撑 类 


MapReduce 的 支撑 类 与 TableMapReduceUtil 类 一 同 协作 在 
HBase 上 执行 MapReduce 作 业 。 它 有 一 个 静态 方法 能 配置 作业 ， 并 使 作 
业 可 以 使 用 HBase 作 为 数据 源 或 目标 。 


7.1.4 MapReduce 的 执行 地 点 


Hadoop 的 块 备份 策略 对 上 层 用 户 十 分 不 通 明 :这 个 过 程 是 目 动 完 
成 的 ， 用 户 不 用 为 其 操心 。HBase 依 靠 这 个 副本 策略 对 上 层 提供 择 久 化 
人 存储。 虽然 这 些 对 于 上 层 完 全 透明 ， 但 是 更 进一步 的 问题 是 ， 这 些 会 
如 何 影响 系统 性 能 ? 


不 论 是 基于 HBase 还 是 Hadoop， 这 个 问题 都 是 用 户 开 始 使 用 
MapReduce 作 业 时 会 产生 的 疑问 。 特 别 是 当 有 大 量 数 据 存储 在 HBase 中 
上 时， 系统 如 何 将 数据 存放 在 需要 它 的 地 方 ? 这 些 都 要 参考 数据 的 位 置 
以 及 HBase 如 何 使 用 Hadoop 文 件 系统 (HDFS) 。 


首先 ， 让 我 们 看 一 下 Hadoop 如 何 处 理 这 些 事情 : MapReduce 文 档 
中 指出 任务 在 靠近 其 数据 的 地 方 执行 。 为 了 达到 这 一 点 ，HDFS 中 的 大 
默认 大 小 是 64 MB (实际 一 般 设 为 128 MB 


每 块 的 数据 个 指定 到 一 个 map 任 务 处 理 。 这 也 说 明 较 大 的 块 会 减少 
所 需 map 的 数目 ， 因 为 map 的 数目 由 需要 处 理 的 块 的 数目 决定 。Hadoop 
知道 块 的 位 置 ， 所 以 会 直接 在 其 对 应 位 置 上 运行 map 任 务 (实际 上 由 于 
每 个 块 都 有 若干 副本 ， 副 本 数量 默认 为 3， 框 架 可 以 在 这 3 个 中 任意 选 
择 一 个 执行 ， 用 于 负载 均衡 ) 。 这 是 MapReduce 保 证 数据 本 地 计算 的 方 


1K ° 


回 到 HBase， 当 用 户 明 白 这 一 点 后 ， 可 能 会 对 这 种 机 制 如 何在 HBase 上 
起 作用 产生 疑问 。 如 8.2 节 介绍 的 ，HBase 将 数据 存储 在 HDFS 上 ， 存 储 
过 程 对 于 用 户 来 说 是 透明 的 。HBase 通 过 数据 文件 HFile 和 它 的 日 志文 
件 (WAL) 来 实现 。 如 果 用 户 查 看 代码 ， 会 发 现 它 使 用 Hadoop APT 方 
法 FileSystem.create(Path path ) 来 创建 这 些 文件 。 


ci 
一 一 如 果 用 户 的 Hadoop 和 HBase 没 有 共用 集群 ， 而 是 彼 
此 分 开 且 相互 独立 ， 此 时 相当 于 运行 一 个 MapReduce 和 集群 ， 
作业 不 能 在 相应 的 datanode 上 执行 。 如 果 需 要 任务 在 数据 所 
在 的 位 置 执行 则 必须 提供 相应 的 数据 位 置信 息 ， 所 以 这 种 情 
况 下 HDFS，MapReduce 和 HBase 必 须 使 用 同一 套 集群 。 


Hadoop 如 何 知 道 HBase 中 数据 的 分 布 呢 ? 最 重要 的 束 是 HBase 没 有 
钻 频 繁重 局 ， 同 时 日 常 维护 操作 都 在 正常 按时 运行 。 当 有 新 数据 加 入 
时 ， 合 并 会 重 写 数据 文件 。 所 有 HDEFS 上 的 文件 被 写 入 之 后 都 是 不 可 修 
改 的 。 因 此 ， 数 据 将 被 写 入 新 文件 ， 而 新 文件 数目 也 会 增加 ，HBase 会 
将 多 个 文件 合并 为 一 个 新 的 文件 。 


此 外 ，HDFS 可 以 根据 数据 的 使 用 位 置 祝 能 地 放置 数据 的 副本 。 它 
目 之 一 个 副本 放置 策略 ， 该 策略 可 以 在 写 入 数据 时 先 让 数据 写 入 到 畏 
助 定位 服务 器 。 收 到 数据 的 市 点 先 比较 目 己 的 服务 右 名 称 和 写 数据 的 
程序 所 在 的 机 器 是 不 是 一 样 ， 如 果 一 样 束 将 数据 写 入 本 地 磁 副 。 然 后 
数据 的 一 个 副本 被 送 到 同一 个 机 架 上 的 男 一 台 服 务 器 ， 男 一 个 送 到 远 
程 的 机 架 一 一 假设 用 户 在 HDFS 中 启用 了 机 染 感 知 。 如 果 没 有 局 用 ， 额 
外 的 副本 会 被 放 和 置 在 集群 中 负载 最 轻 的 三 所 上。 


如 果 用 户 配 置 了 一 个 更 大 的 副本 数目 ， 更 多 的 副本 会 存在 不 同 的 
机 器 上 。 但 最 重要 的 一 点 是 ， 用 户 可 以 取 到 本 地 的 副本 。 这 就 意味 
着 ， 当 HBase 的 region 服 务 器 长 时 间 没 有 重启 时 ， 表 经 过 major 合 并 之 后 
(major 合 并 可 以 由 用 户 手 动 触发 或 由 系统 配置 定时 运行 ， 表 的 数据 
就 都 会 有 一 份 本 地 副本 ， 本 地 的 Data Node 也 会 有 region 服 务 器 上 所 需 数 
ne 。 如果 用 户 运 行 scan 和 get 或 者 其 他 操作 ， 用 户 会 得 到 更 
AT? 能 o 


region 在 人 负载 均衡 或 服务 器 故障 时 可 能 会 出 现 移动 的 情况 ， 当 这 种 
情况 发 生 时 ， 数 据 可 能 不 在 本 地 了 ， 但 随 看 时 间 的 推移 ， 其 可 能 会 
次 移动 天 数据 所 在 地 。master 在 集群 重 局 时 会 考虑 到 这 种 情况 ， 它 会 把 


region 分 配 到 它 的 原 属 region 服 务 右 上 。 只 有 当 原 属 服务 属 不 存在 时 才 
进行 随机 分 配 。 


7.1.5” 表 拆 分 


当 用 户 使 用 MapReduce 作 业 从 表 中 读 取 数据 时 ， 实 质 上 是 使 用 
TableInputFormat 取得 数据 。 它 符合 MapReduce 框 架 ， 并 重 载 了 公 
有 方法 getSplits() 和 createRecordReader( ) 。 在 一 个 作业 被 
执行 前 ， 框 架 调 用 getSplit( ) 来 决定 如 何 划分 块 (chunk) ， 从 而 
由 块 数目 决定 映射 任务 的 数目 。 


对 于 HBase 来 说 ，TableInputFormat 基于 用 户 提 供 的 Scan 实 
例 取 得 所 需要 的 表 人 信息， 并且 按 region 来 划分 边界 。 由 于 它 不 能 直接 地 
预测 到 可 选 过 滤 需 的 执行 效果 ， 所 以 它 简单 地 使 用 起 止 键 来 确定 
region。 拆 分 块 的 数目 与 起 止 键 之 间 的 region 数 目 相等 。 如 果 用 户 没有 
设置 这 两 个 键 ， 则 所 有 region 都 被 包含 在 其 中 。 


作业 启动 时 ， 框 架 会 按 拆 分 的 数目 调用 
createRecordReader() ， 并 返回 与 当前 块 对 应 的 
TableRecordReader 实例 。 换 句 话 说 ， 每 个 TableRecordReader 
实例 处 理 一 个 对 应 的 regoin， 读 取 并 遍历 一 个 region 的 所 有 行 。 


每 一 个 拆 分 也 包含 对 应 region 所 在 服务 絮 的 信息 。 正 古 这 个 信息 能 
使 HBase 上 的 MapReduce 作 业 本 地 化 执行 : 框架 会 比较 region 对 应 的 服 
务 絮 名 ， 如 采 有 任务 tracker 在 对 应 服务 右上 运行 ， 它 会 挑选 这 个 服务 器 
来 执行 作业 。 因 为 region 服 务 器 与 Data Node 运 行 在 一 个 节点 ， 所 以 扫描 
会 从 本 地 人 磁 强 读 取 文件 。 


一 一 当 在 HBase 上 运行 MapReduce 时 ， 推 荐 用 户 关闭 预 
测 执 行 模式 。 这 样 会 增加 region 和 服务 器 的 负载 ， 同 时 与 本 
地 化 运行 相 违 背 ， 预 测 作业 在 一 个 不 同 的 机 器 上 运行 ， 因 此 
没有 本 地 region 服 务 器 ， 这 会 增加 网 络 带宽 开销 。 


7.2 ”在 HBase 之 上 的 MapReduce 

以 下 将 为 读者 介绍 如 何 结合 MapReduce 来 使 用 HBase。 用 户 在 使 用 
HBase 作 为 数据 源 、 目 标 库 ， 或 者 同时 作为 两 者 来 处 理 数 据 之 前 ， 用 户 
还 需要 先 做 一 些 使 用 Hadoop 的 准备 。 

7.2.1 准备 

当 运 行 MapReduce 作 业 所 需 库 中 的 类 不 是 绑 定 在 Hadoop 或 MapReduce 框 
架 中 时 ， 用 户 就 必须 确保 这 些 库 在 作业 执行 之 前 已 经 可 用 。 用 户 一 般 
有 两 个 选择 : 在 所 有 的 任务 节点 上 准备 静态 的 库 ， 或 直接 提供 作业 所 
需 的 所 有 库 。 

1. 静态 配置 


对 于 经 常 使 用 的 库 来 说 ， 最 好 将 这 些 JAR 文 件 安装 在 MapReduce 任 务 
tracker 的 本 地 ， 可 以 通过 以 下 步骤 来 完成 。 


1. 把 JAR 文 件 复制 到 所 有 节点 的 妾 用 路 径 中 。 


2. 将 这 些 JAR 文 件 的 完整 路 径 写 入 hadoop-env.sh 配置 文件 中 ， 按 
照 如 下 方式 编辑 HADOOP_CLASSPATH 变量 : 


# Extra Java CLASSPATH elements. Optional. 


# export HADOOP_CLASSPATH="< extra_entries>:$HADOOP_CLASSPATH" 


3， 重 局 所 有 的 任务 tracker 使 变更 生效 。 


显然 这 个 技术 是 纯 静 态 的 ， 并 且 每 次 变更 〈 即 增加 新 库 ) 都 需要 重启 
任务 tracker。 如 果 需 要 添加 HBase 的 支持 ， 至 少 需 要 增加 HBase 和 
ZooKeeper 的 JAR 文 件 。 按 照 如 下 方式 编辑 hadoop-env.sh: 


export HADOOP_CLASSPATH="$HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar: \ 


$ZK_HOME/zookeeper -3.3.2. jar :$HADOOP_CLASSPATH" 


这 里 的 前 提 十 假设 用 户 已 经 定义 了 两 个 $XYZ_HOME 环境 变量 ， 并 
在 环境 变量 中 指出 软件 的 安装 路 径 。 


| 
| 请 注意 ， 这 将 可 以 修复 全 球 范 围 内 任何 指定 的 服务 
器 和 服务 器 上 的 配置 文件 所 需 的 库 。 


所 需 的 特定 版 本 库 被 锁定 的 问题 可 以 通过 动态 配置 来 解决 ， 稍 后 做 解 


释 。 


在 一 些 情况 下 ， 用 户 希 望 每 个 他 们 运行 的 作业 可 以 使 用 不 同 的 
或 者 在 作业 运行 时 能 够 更 新 库 ， 这 种 情况 下 动态 配置 下 非常 有 用 


针对 这 种 情况 ，Hadoop 有 一 个 特殊 的 功能 ， 它 可 以 读 取 操 作 目 隶 中 /lib 
目录 下 包含 的 所 有 库 的 JAR 文 件 。 用 户 可 以 使 用 此 功能 生成 所 请 

的 “ 胖 ?JAR 文 件 ， 因 为 它们 传输 的 不 仅仅 是 实际 的 作业 代码 ， 还 有 所 有 
需要 的 库 。 这 意味 着 作业 JAR 文 件 更 大 ， 但 从 另 一 方面 来 说 ， 其 中 已 经 
目 己 包含 了 处 理 作业 的 完整 的 代码 。 


使 用 Maven 


本 书 中 的 示例 代码 使 用 Maven 来 编译 JAR 文 件 (详情 
见 前 言 的 “编辑 示例 程序 ”一 节 ) 。Maven 不 仅 可 以 帮助 用 
户 编译 示例 程序 ， 还 可 以 编译 加 强 的 “ 胖 ”JAR 文 件 并 将 其 


部 署 到 MapReduce 框 架 中 。 这 避免 了 编辑 服务 器 端的 配置 
Dele 


Maven 已 经 支持 了 profiles， 这 可 以 帮助 用 户 自 定义 编 
TERE e AEA pom.xml 利用 这 个 功能 添加 了 一 个 fatjar 
配置 ， 并 将 /lib 目录 下 的 所 有 库 文 件 打 包 到 了 一 个 最 终 的 
作业 JAR 中 。 在 这 个 工作 属性 中 ， 一 些 依赖 可 以 将 scope 属 
性 定义 为 provided ， 以 使 这 些 文件 不 被 包含 在 上 述 复制 
过 程 中 。 当 一 些 库 在 服务 器 中 已 经 可 用 时 ， 可 以 适当 地 增 
加 这 样 的 标记 ， 例 如 ，Hadoop 的 JAR: 


< dependency> 
< groupId>org.apache.hadoop< /groupId> 
< artifactId>hadoop-core< /artifactId> 
< version>0.20-append-r1044525< /version> 
< Scope>provided< /scope> 


< /dependency> 


本 书 资料 库 的 根 目 孙 下 的 父 POM 文 件 定义 了 上 述 信 
息 ， 此 外 ， 本 章 POM 中 定义 依赖 的 地 方 也 包含 此 信息 。 其 
中 一 个 例子 是 Apache Commons CLI 库 ， 该 库 已 经 是 


Hadoop 的 一 部 分 。 


胖 JAR 配 置 使 用 了 Maven Assembly 插件 ， 在 
src/main/assembly/job.xml 文件 中 配置 了 哪些 文件 应 该 被 包 


含 ， 哪 些 文件 不 应 该 被 包含 在 目标 JAR 文 件 中 ( 即 跳 过 已 
提供 的 库 ) 。 为 取代 现 有 的 配置 ， 用 户 可 以 编译 一 

个 “着 "JAR， 即 一 个 只 包含 作业 类 ， 且 需要 更 新 服务 器 端 
配置 来 包含 HBase 和 ZooKeeper 的 JAR， 例 如 : 


< ch07>$ mvn package 


上 述 命 令 可 以 编译 一 个 能 够 被 MapReduce 框 架 执 行 的 
JAR， 运 行 时 可 以 使 用 如 下 命令 : 


< ch07>$ hadoop jar target/hbase-book-ch07-1.0.jar 
An example program must be given as the first argument. 
Valid program names are: 

AnalyzeData: Analyze imported JSON 


ImportFromFile: Import from file 
ParseJson: Parse JSON into columns 
ParseJson2: Parse JSON into columns(map only) 


上 述 命 令 列 出 了 所 有 可 能 的 作业 名 称 。 它 使 用 了 
Hadoop Program Driver 类 ， 该 类 由 所 有 已 知 的 作业 类 
和 它们 的 名 称 构成 。Maven 构 建 了 Driver 类 ， 该 类 封装 
了 Program Driver 实例 ， 并 作为 JAR 文 件 的 主要 类 ; 


因此 它 可 以 自动 被 Hadoop 的 jar 命令 执行 。 构 建 一 
个 “ 胖 ”JAR 需 要 使 用 以 下 命令 : 


< ch07>$ mvn package -Dfatjar 


生成 的 JAR 文 件 附 加 了 一 个 后 绥 来 彼此 区 分 ， 但 这 仅 
仅 是 一 种 尝试 〈 用 户 可 以 根据 喜好 覆盖 “ 瘦 "JAR) : 


< ch07>$ hadoop jar target/hbase-book-ch07-1.0-job 


„jar 


它 的 行为 与 “ 瘦 ”JAR 相 似 ， 并 且 用 户 可 以 使 用 相同 的 
参数 执行 同一 个 作业 。 不 同 之 处 在 于 ， 它 包含 了 所 有 需要 
的 库 ， 并 避免 了 配置 在 服务 器 中 发 生 改 变 : 


$ unzip -1 target/hbase-book-ch07-1.0-job.jar 


Archive: target/hbase-book-ch07-1.0-job.jar 
Length Date Time Name 


© 07-14-11 12:01 META-INF/ 

159 07-14-11 12:01 META-INF/MANIFEST .MF 
© 07-13-11 15:01 mapreduce/ 
© 07-13-11 10:06 util/ 

740 07-13-11 10:06 mapreduce/Driver.class 


3547 07-14-11 12:01 mapreduce/ImportFromFile$ImportMapper.class 
5326 07-14-11 12:01 mapreduce/ImportFromFile.class 


8739 07-13-11 10:06 util/HBaseHelper.class 
© 07-14-11 12:01 lib/ 
16046 05-06-10 16:08 lib/json-simple-1.1.jar 
58160 05-06-10 16:06 lib/commons-codec-1.4.jar 
598364 11-22-10 21:43 lib/zookeeper-3.3.2.jar 
2731371 07-02-11 15:20 lib/hbase-0.91.0-SNAPSHOT. jar 
14837 07-14-11 12:01 lib/hbase-book-ch07-1.0.jar 


3445231 


Maven 并 不 是 生成 不 同 作 业 的 JAR 唯 一 的 方法 ， 用 户 
也 可 以 使 用 Apache Ant。 无 论 用 户 使 用 哪 种 方式 编译 


JAR， 它 们 都 需要 包含 必要 的 信息 (只 是 代码 ， 或 代码 及 
其 必 备 的 库 ) 。 


另 一 种 动态 提供 必 备 库 的 方式 是 Hadoop MapReduce 框 染 的 libjars 
功能 。 当 用 户 使 用 GenericoptionsParser 创建 一 个 MapReduce 作 
业 时 ， 可 以 得 到 1ibjar 参数 提供 的 文 持 。 以 下 是 该 参数 类 的 文档 : 


GenericOptionsParser is a utility to parse command line arguments 
generic 


to the Handoop framework GenericOptions Parser recognizes several 
standarad 


command line arguments, enabling applications to easily specify a 
namenode, 


a jobtracker, additional configuration resources etc. 


Generic Options 
The supported generic options are: 


-conf < configuration file> specify a configuration file 
-D < property=value> use value for given property 
-fs < local|namenode:port> specify a namenode 
-jt < local|jobtracker:port> specify a job tracker 
-files < comma separated list of files> specify comma separated 
files to be copied to themap reduce 
cluster 
-libjars < comma separated list of jars> specify comma 
separated 
jar files to include in the classpath. 
-archives < comma separated list of archives> specify comma 
separated archives to be unarchived on the compute 
machines. 
The general command line syntax is: 
bin/hadoop command [genericOptions] [commandOptions ] 


请 仔细 阅读 文档 ， 该 文档 详细 地 解释 了 1ibjars 参数 ， 并 指出 了 
蚊 样 在 命令 行 中 使 用 该 参数 。 添 加 1ibjars 参数 失败 会 导致 
MapReduce 作 业 失 败 ， 最 终 可 在 任务 的 执行 单元 日 志 中 查看 相关 信息 。 
启动 作业 时 ， 错 误 也 会 同时 反馈 到 命令 行 中 ， 例 如 : 


$ HADOOP_CLASSPATH=$HBASE_HOME/target/hbase-0.91.0-SNAPSHOT.jar: \ 


$ZK_HOME/zookeeper -3.3.2.jar hadoop jar target/hbase-book-ch07 - 
1.0.jar \ 


ImportFromFile -t testtable -i test-data.txt -c data:json 


11/08/08 11:13:17 INFO mapred.JobClient: Running job: 
job_201108081021 0003 

11/08/08 11:13:18 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 11:13:29 INFO mapred.JobClient: Task Id : \ 

attempt_201108081021 0003_m_000002_0, Status : FAILED 
java.lang.RuntimeException: java.lang.ClassNotFoundException: \ 

org.apache.hadoop.hbase.mapreduce. TableOutputFormat 

at 
org.apache.hadoop.conf .Configuration.getClass(Configuration. java: 80 


9) 

at 
org.apache.hadoop.mapreduce. JobContext.getOutputFormatClass(JobCont 
ext. java:197) 

at org.apache.hadoop.mapred.Task.initialize(Task. java: 413) 

at org.apache.hadoop.mapred.MapTask.run(MapTask. java: 288) 

at org.apache.hadoop.mapred.Child.main(Child.java:170) 


HADOOP_CLASSPATH 需要 使 用 命令 行 。Driver 类 在 启动 时 需 
访问 HBase 和 ZooKeeper 类 ， 解 决 上 述 问题 需要 按照 如 下 方式 添加 
libjars 参数 : 


$ HADOOP_CLASSPATH=$HBASE_HOME/target/hbase-0.91.0-SNAPSHOT.jar: \ 


$ZK_HOME/zookeeper -3.3.2.jar hadoop jar target/hbase-bk-ch07- 
1.0.jar \ 


ImportFromFile -libjars $HBASE_HOME/target/hbase-0.91.0- 
SNAPSHOT.jar, \ 


$ZK_HOME/zookeeper-3.3.2.jar -t testtable -i test-data.txt -c 
data: json 


11/08/08 11:19:38 INFO mapred.JobClient: Running job: 
job_201108081021 0006 

11/08/08 11:19:39 INFO mapred.JobClient: map 0% reduce 0% 
11/08/08 11:19:48 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 11:19:50 INFO mapred.JobClient: Job complete: 
job_201108081021 0006 


最 终 ，HBase 辅 助 类 TableMapReduceUtil 提供 了 可 以 帮助 用 户 在 作 
业 中 通过 代码 动态 添加 依赖 的 JAR 和 配置 文件 的 方法 : 


static void addDependencyJars(Job job) throws IOException; 
static void addDependencyJars(Configuration conf, Class... 


classes) 
throws IOException; 


用 户 过 去 都 使 用 后 一 种 功能 来 添加 所 需 的 HBase、ZooKeeper 和 作业 


X 


addDependencyJars(job.getConfiguration(), 
org.apache.zookeeper .ZooKeeper.class, 
job.getMapOutputKeyClass(), 
job.getMapOutputValueClass(), 
job.getInputFormatClass(), 


job.getOutputKeyClass(), 
job.getOutputValueClass(), 
job.getOutputFormatClass(), 
job.getPartitionerClass(), 
job.getCombinerClass()); 


读者 可 以 在 ImportTsv 类 的 源 代 码 中 查看 使 用 说 明 : 


public static Job createSubmittableJob(Configuration conf, 
String[] args) 
throws IOException, ClassNotFoundException { 


Job job = new Job(conf, NAME + "_" + tableName); 


TableMapReduceUtil.addDependencyJars(job); 
TableMapReduceUtil.addDependencyJars(job.getConfiguration(), 
com.google.common.base.Function.class /* Guava used by 
TsvParser */); 
return job; 


} 


这 里 首先 调用 addDependencyJars( ) 方法 添加 作业 和 必要 的 
类 ， 包 括 输 入 输出 格式 和 键 值 的 类 型 等 。 第 二 个 调用 添加 了 Google 
Guava JAR， 这 个 JAR 需 求 程度 在 其 他 库 之 上 。 需 要 注意 的 是 ， 这 个 方 
法 并 不 需要 用 户 指定 实际 的 JAR 文 件 ， 它 直接 使 用 Java 的 类 加 载 器 进行 
加 载 但 有 可 能 会 找到 相同 的 JAR 文 件 ， 不 过 在 这 里 这 是 无 关 紧 要 的 ， 重 
要 的 是 你 可 以 在 Java CLASSPATH 中 访问 该 类 ; 否则， 这 些 调用 最 终 会 
失败 ， 并 返回 一 个 classNotFoundException 错误 ， 类似 于 之 前 你 


看 到 过 的 信息 。 用 户 在 一 个 没有 准备 好 的 Hadoop 启 动 中 ， 至 少 需要 填 
加 HADOOP_CLASSPATH 到 命令 行 中 。 


| 

SS eee ee a 
HBase 启 动 过 程 所 有 作业 所 需 的 库 ， 而 另 一 种 方式 则 至 少 需 
要 准备 classpath ° 


就 本 书 而 言 ， 我 们 将 使 用 胖 JAR 的 方式 编译 和 运行 
MapReduce 作 业 。 


7.2.2 ”数据 流向 


随后 ， 我 们 将 使 用 MapReduce 作 业 作 为 过 程 的 一 部 分 ， 该 作业 可 以 
使 用 HBase 进 行 读 取 或 写 入 。 第 一 个 例子 是 使 用 HBase 作 为 数据 流 问 ， 
这 个 例子 是 在 TableoutputFormat 类 的 帮助 下 实现 的 ， 详 情 见 例 
7.1 5° 


| 
© ATENT Delicious ( 
http://delicious.com ) 提供 的 公开 订阅 源 。Arvind Narayanan 
使 用 这 个 订阅 源 收集 了 一 个 人 简单 的 数据 集合 ， 已 经 发 布 在 他 
的 博客 中 。 
不 是 必须 使 用 这 个 数据 集 ， 或 捕捉 订阅 源 信息 ( 


http://feeds.delicious.com/v2/rss/recent ) ; 你 可 以 任意 使 用 其 
他 开源 的 资源 ， 包 括 JSON 格 式 的 数据 记录 。 男 一 方面 ， 


Delicious 的 数据 提供 了 完整 的 Hush 模 式 : 每 个 实体 都 有 链 
接 、 用 户 名 、 时 间 和 类 别 等 。 


本 书 资 料 库 中 的 test-data.txt 是 一 个 小 型 公开 数据 集 的 子 
集 。 对 于 测试 来 说 ， 这 个 数据 集 已 经 足够 ,但 显然 使 用 完整 
的 数据 集 执行 作业 更 好 。 


以 下 是 其 完整 的 代码 ， 包 含 标准 的 模板 排序 。 随 后 的 例子 并 不 会 
包含 这 些 样板 代码 ， 例 如 ， 命 令 行 参数 解析 。 


例 7.1 MapReduce 作 业 从 一 个 文件 中 读 取 数据 并 写 入 HBase 表 


public class ImportFromFile { 
public static final String NAME = "ImportFromFile";@ 
public enum Counters { LINES } 


static class ImportMapper 
extends Mapper< Longwritable, Text, ImmutableByteswritable, 


Writable> {@ 


private byte[] family = null; 
private byte[] qualifier = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 
String column = 
context.getConfiguration().get("conf.column") ; 
byte[][] colkey = 
KeyValue.parseColumn(Bytes.toBytes(column) ); 
family = colkey[0]; 
if (colkey.length > 1) { 
qualifier = colkey[1]; 
} 
} 


@Override 

public void map(Longwritable offset, Text line, Context 
context )® 

throws IOException { 


try { 
String lineString = line.toString(); 
byte[] rowkey = DigestUtils.md5(lineString);® 
Put put = new Put(rowkey); 
put.add(family, qualifier, Bytes.toBytes(lineString));® 
context.write(new ImmutableBytesWritable(rowkey), put); 
context.getCounter(Counters.LINES).increment(1); 
} catch (Exception e) { 
e.printStackTrace(); 


} 
} 
} 


private static CommandLine parseArgs(String[] args) throws 
ParseException {0 
Options options = new Options(); 
Option o = new Option("t", "table", true, 
"table to import into (must exist)"); 
o.setArgName("table-name"); 
o.setRequired(true) ; 
options.addOption(o); 
o = new Option("c", "column", true, 
"column to store row data into (must exist)"); 
o.setArgName("family:qualifier"); 
o.setRequired(true) ; 
options.addOption(o); 
o = new Option("i", "input", true, 
"the directory or file to read from"); 
o.setArgName("path-in-HDFS"); 
o.setRequired(true) ; 
options.addOption(o); 
options.addOption("d", "debug", false, "switch on DEBUG log 
level"); 
CommandLineParser parser = new PosixParser(); 
CommandLine cmd = null; 
try { 
cmd = parser.parse(options, args); 
} catch (Exception e) { 
System.err.println("ERROR: " + e.getMessage() + "\n"); 
HelpFormatter formatter = new HelpFormatter(); 
formatter.printHelp(NAME + " ", options, true); 
System.exit(-1); 
} 


return cmd; 


public static void main(String[] args) throws Exception { 
Configuration conf = HBaseConfiguration.create(); 
String[] otherArgs 


new GenericOptionsParser(conf, args).getRemainingArgs();@ 
CommandLine cmd = parseArgs(otherArgs); 
String table = cmd.getOptionValue("t"); 
String input = cmd.getOptionValue("i"); 
String column = cmd.getOptionValue("c"); 
conf.set("conf.column", column); 
Job job = new Job(conf, "Import from file " + input + " into 

table " +table);® 

job.setJarByClass(ImportFromFile.class); 
job.setMapperClass(ImportMapper.class); 
job.setOutputFormatClass(TableOutputFormat.class); 
job.getConfiguration().set(TableOutputFormat .OUTPUT_TABLE, 


job.setOutputKeyClass(ImmutableByteswritable.class); 
job.setOutputValueClass(Writable.class); 
job.setNumReduceTasks(0);9 
FileInputFormat.addInputPath(job, new Path(input)); 


System.exit(job.waitForCompletion(true) ? 0 : 1); 


} 
} 


@ 为 后 续 的 使 用 定义 一 个 作业 名 。 


四 定义 mapper 类 ， 继 承 目 Hadoop 已 有 的 类 。 


© map() KŻ InputFormt 提供 的 键 值 对 转化 为 了 
OutputFormat 需要 的 类 型 。 


@ 行 键 站 经 过 MD5 散 列 之 后 随机 生成 的 键 值 。 
@ 存 储 原 始 数据 到 给 定 的 表 中 的 一 列 。 


@ 使 用 Apache Commons CLI 类 解析 命令 行 参数 。 这 些 已 经 是 HBase 
的 一 部 分 ， 因 此 用 户 可 以 很 方便 地 处 理 作 业 的 参数 。 


@ 传 递 命令 行 参数 到 解析 郁 中 ， 并 优先 解 析 “-Dxyz” 属 性 。 
@ 使 用 竺 定 的 类 定义 作业 。 
@ 这 是 一 个 只 包 全 map 阶段 的 作业 ， 框 染 会 直接 跳 过 reduce 阶 段 。 


用 户 在 代码 的 main( ) 函数 中 进行 了 设置 ， 在 运行 MapReduce 作 业 
之 前 ， 上 自 先 解析 命令 行 以 获取 目标 表 名 、 目 标 列 和 输入 文件 的 名 称 。 
虽然 这 里 可 以 硬 编 码 ， 但 是 最 好 还 是 写 一 段 文 持 可 配置 的 代码 。 


下 一 步 是 构建 作业 实例 ， 通 过 命令 行 和 已 确定 的 参数 (如 类 和 名) 
指定 变量 的 细节 。 其 中 的 一 个 细节 是 指定 mapper 类 ， 将 其 设置 为 
ImportMapper 。 这 个 类 与 main 类 在 同一 个 源 代码 文件 中 ， 并 定义 了 
作业 在 map 阶 段 要 完成 的 逻辑 。 


Main() 函数 的 代码 指定 了 输出 格式 的 类 ， 即 前 面 描述 过 的 
TableOutputFormat 类 。 这 个 类 由 HBase 提 供 ， 并 能 够 方便 地 回 一 
张 表 中 写 入 数据 ， 键 的 类 型 被 该 类 隐 式 地 设置 为 
ImmutableByteswritable 类 ， 值 被 隐 式 地 设置 为 Writable 的 


用 户 在 执行 作业 前 ， 最 好 先 创 建 一 个 目标 表 ， 例 如 ， 使 用 HBase Shell 
来 创建 目标 表 : 


hbase(main):001:0> create 'testtable', 'data' 


© row(s) in 0.5330 seconds 


一 旦 准备 好 了 表 ， 用 户 束 可 以 运行 该 作业 了 : 


$ hadoop dfs -put /projects/private/hbase-book-code/ch07/test - 
data.txt. 


$ 


hadoop jar target/hbase-book-ch07-1.0-job.jar ImportFromFile \ 


-t testtable -i test-data.txt -c data:json 


11/08/08 12:35:01 INFO mapreduce.TableOutputFormat: \ 

Created table instance for testtable 

11/08/08 12:35:01 INFO input.FileInputFormat: Total input paths to 
process : 1 

11/08/08 12:35:02 INFO mapred.JobClient: Running job: 
job_201108081021 0007 

11/08/08 12:35:03 INFO mapred.JobClient: map 0% reduce 0% 

11/08/08 12:35:10 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 12:35:12 INFO mapred.JobClient: Job complete: 
job_201108081021 0007 


第 一 个 命令 是 hadoop dfs -put ,该 命令 将 样本 数据 集合 存储 到 HDFS 
的 用 户 目录 中 。 第 二 个 命令 则 可 以 运行 这 个 作业 ， 作 业 的 完成 需要 一 
段 时 间 。 使 用 默认 的 TextInputFormat 类 读 取 数据 ， 这 个 类 是 由 
Hadoop 及 其 MapReduce 框 架 提 供 的 。 这 个 输入 格式 能 够 读 取 用 换行 符 
换行 的 文本 文件 。 每 读 取 一 行 都 会 调用 一 次 指定 的 mapper 类 的 map ( ) 
方法 ， 这 将 触发 ImportMapper .map() HŽ ° 


如 例 7.1 所 示 ，ImportMapper 类 定义 了 两 个 方法 ， 这 两 个 方法 重 
载 了 父 类 Mapper ， 方 法 名 均 相 同 。 


重 载 中 存在 的 问题 


强烈 推荐 在 重 载 的 方法 中 添加 @override 的 注释 ， 
这 样 错 误 的 标签 在 编译 时 会 被 检查 出 来 。 否 则 ， 隐 式 的 
map( ) Sreduce() 方法 会 被 调用 ， 并 实现 恒 等 功能 。 例 
如 ， 以 下 reduce( ) 方法 : 


public void reduce(Writable key, Iterator< Writable> values, 
Context context) throws IOException, InterruptedException { 


上 壕 方 法 看 起 来 正确 ， 实 则 不 然 ， 其 实 并 没有 重 载 
Reducer 类 的 reduce( ) 方法 ， 而 只 是 定义 了 人 reduce() 
方法 的 一 个 多 态 。MapReduce 框 架 会 忽略 这 个 方法 ， 并 执 
行 由 Reducer 类 提供 的 默认 实现 。 


完 其 原因 ， 实 际 应 该 标记 的 方法 应 该 是 : 


protected void reduce(KEYIN key, Iterable 


< VALUEIN> values, \ 
Context context) throws IOException, InterruptedException 


这 是 常见 错误 ， 在 这 里 Iterable 被 错误 地 替换 成 了 
Iterator 类 。 在 任务 执行 发 生 奇 怪 的 行为 之 前 ， 在 你 的 
代码 中 为 重 载 的 方法 添加 @override 注释 能 够 帮助 用 户 
在 编译 的 时 候 抛 出 错误 (用 户 最 好 在 后 台 完 成 IDE 检 
A) 。 将 注释 添加 到 方法 的 前 面 ， 例 如 : 


@Override 
public void reduce(Writable key, Iterator< Writable> values, 


Context context) throws IOException, InterruptedException { 


用 户 正 在 使 用 的 IDE 可 能 已 经 出 现 了 错误 ， 但 编译 絮 
仍 会 抛 出 如 下 错误 : 


[INFO] 


[ERROR] BUILD FAILURE 


[INFO] Compilation failure 
ch07/src/main/java/mapreduce/InvalidReducerOverride. java: [18,4] 
method does not override or 
implement a method from a supertype 


ImportMapper 类 的 重 载 的 setup( ) 方法 只 会 在 框架 初始 化 该 
类 时 调用 一 次 。 在 这 个 例子 中 ， 它 主要 被 用 于 将 指定 的 列 信息 解析 为 
列 族 和 列 限定 符 。 


这 个 类 中 的 map( ) 才 是 执行 实际 工作 的 实体 ， 它 会 被 输入 的 文本 
文件 中 的 每 一 行 调用 ， 每 一 行 都 包含 了 一 个 JSON 格 式 的 记录 。 这 段 代 
码 会 使 用 一 行 数据 的 MD5 散 列 值 来 创建 一 个 HBase 行 键 ， 然 后 使 用 
HBase 提 供 的 名 为 data:json 的 列 存储 一 行 的 内 容 。 


这 个 例子 通过 TableoutputFormat 类 使 用 了 隐 式 的 写 缓冲 区 。 
调用 context .write( ) 方法 时 ， 该 方法 内 部 会 传 入 给 定 的 Put 实例 
并 调用 table .put()。 在 作业 结束 前 ，TableOutputFormat 会 
动 调用 flushcommits() 以 保存 仍 就 驻 留 在 写 缓冲 区 的 数据 。 
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“map( ) 方法 可 以 通过 写 Put 实例 来 存储 输入 数 
据 ， 用 户 也 可 以 通过 写 Delete 实例 来 删除 目标 表 中 的 数 
据 。 这 整 古 设置 作业 输出 键 的 类 型 为 Writable 接口 ， 而 并 
非 显 式 的 Put 类 的 原因 。 


TableOutputFormat 当前 仅 能 处 理 Put 与 Delete 实 
例 ， 将 消息 设置 为 除 Put 或 Delete 之 外 的 实例 都 会 导致 抛 


出 一 个 IOException 异常 。 


最 后 ， 请 注意 作业 在 没有 reduce 阶 段 的 情况 下 ，map 阶 段 是 怎样 工作 
的 。 这 是 相当 典型 的 HBase 与 MapReduce 作 业 结 合 : 由 于 数据 是 存储 在 
排序 表 中 的 ， 并 且 每 行 数据 都 拥有 唯一 的 行 键 ， 用 户 可 以 在 流程 中 避 
免 更 消耗 的 sort、shuffle 和 reduce 阶 段 。 


7.2.3 ”数据 源 


将 数据 导入 到 表 中 之 后 ， 我 们 可 以 使 用 其 中 包含 的 数据 来 解析 
JSON 记 录 ， 并 从 中 提取 信息 。 这 里 完全 使 用 了 TableInputFormat 
类 ， 恰 好 对 应 了 TableOutputFormat 。 在 MapReduce 处 理 过 程 中 ， 
它 以 一 张 表 为 输入 。 例 7.2 使 用 了 已 提供 的 InputFormat 类 。 


例 7.2 MapReduce 作 业 读 取 已 导入 的 数据 并 解析 


static class AnalyzeMapper extends TableMapper< Text, IntwWritable> 
{0 


private JSONParser parser = new JSONParser(); 
private IntWritable ONE = new IntWritable(1); 


@Override 


public void map(ImmutableByteswritable row, Result columns, 
Context context) 
throws IOException { 
context.getCounter(Counters.ROWS).increment(1); 
String value = null; 
try { 
for (KeyValue kv : columns.list()) { 
context.getCounter(Counters.COLS).increment(1); 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value); 
String author = (String) json.get("author");@ 
context.write(new Text(author), ONE); 
context.getCounter(Counters.VALID).increment(1); 


} catch (Exception e) { 
e.printStackTrace(); 
System.err.printin("Row: " + Bytes.toStringBinary(row.get()) + 
", JSON: " + value); 
context.getCounter(Counters.ERROR).increment(1); 


} 
} 
} 


static class AnalyzeReducer 
extends Reducer< Text, Intwritable, Text, Intwritable> {® 


@Override 
protected void reduce(Text key, Iterable< IntWritable> values, 
Context context) throws IOException, InterruptedException { 
int count = 0; 
for (IntWritable one : values) count++;@ 
context.write(key, new IntwWritable(count) ) ) 
} 
} 


public static void main(String[] args) throws Exception { 


Scan scan = new Scan();® 
if (column != null) { 
byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column) ); 
if (colkey.length > 1) { 
scan.addColumn(colkey[0], colkey[1]); 
} else { 
scan.addFamily(colkey[®0]); 
} 
} 


Job job = new Job(conf, "Analyze data in " + table); 


job.setJarByClass(AnalyzeData.class); 
TableMapReduceUtil.initTableMapperJob(table, scan, 
AnalyzeMapper.class, 

Text.class, IntWritable.class, job);© 
job.setReducerClass(AnalyzeReducer.class); 
job.setOutputKeyClass(Text.class);@ 
job.setOutputValueClass(IntWritable.class); 
job.setNumReduceTasks(1); 
FileOutputFormat.setOutputPath(job, new Path(output)); 


System.exit(job.waitForCompletion(true) ? © : 1); 


@@ 继 承 已 提供 的 TableMapper 类 ， 设 置 用 户 自 己 的 输出 键 值 类 


ne 


@ 解 析 JSON 数 据 ， 提 取 编 辑 用 户 ， 并 统计 发 生 次 数 。 
日 拓展 一 个 Hadoop Reducer 类 ， 并 指定 适当 的 类 型 。 
@ 统 计 发 生 次 数 ， 并 计算 其 总 和 。 

@ 创 建 并 配置 一 个 Scan 实例 。 

@ 使 用 提供 的 库 来 设置 表 的 map 阶 段 。 

@ 使 用 常规 的 Hadoop 语 法 来 配置 reduce 阶 段 。 


这 个 作业 运行 了 一 个 完整 的 MapReduce 过 程 ，map 阶 段 主要 负责 从 
源 表 中 读 取 JSON 数 据 ，reduce 阶 段 主 要 负责 对 每 个 用 户 做 聚合 统计 。 
这 个 例子 与 Hadoop 提 供 的 WordCount 例子 非常 相似 ，mapper 负 责 记 录 
统计 值 ONE ，reducer 负 责 对 每 个 键 做 聚合 操作 ， 例 7.2 操 作 的 键 是 编辑 
FAR (Author) 。 在 命令 行 上 按照 如 下 方式 执行 作业 : 


$ hadoop jar target/hbase-book-ch07-1.0-job.jar AnalyzeData \ 


-t testtable -c data:json -o analyze1 


11/08/08 15:36:37 INFO mapred.JobClient: Running job: 
job_201108081021 0021 

11/08/08 15:36:38 INFO mapred.JobClient: map 0% reduce 0% 
11/08/08 15:36:45 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 15:36:57 INFO mapred.JobClient: map 100% reduce 100% 
11/08/08 15:36:59 INFO mapred.JobClient: Job complete: 
job_201108081021 0021 

11/08/08 15:36:59 INFO mapred.JobClient: Counters: 19 


11/08/08 15:36:59 INFO mapred.JobClient: 
mapreduce.AnalyzeData$Counters 

11/08/08 15:36:59 INFO mapred.JobClient: ROWS=993 

11/08/08 15:36:59 INFO mapred.JobClient: COLS=993 

11/08/08 15:36:59 INFO mapred.JobClient: VALID=993 


IF 2G AR ae LS BT FP YZ ST FURR, 并 且 可 以 通过 命令 
行 方式 进行 访问 ， 例如 ， hadoop dfs -text 命令 : 


$ hadoop dfs -text analyze1/part-r-00000 


10sr 
13tohl 


14bcps 
21721725 
2centime 
33rpm 


个 例子 展示 了 怎样 使 用 TableMapReduceUtil 类 ， 通 过 使 用 
te 的 静态 方法 可 以 快速 配置 一 不 作业 ， Sea 
必要 的 类 。 由 于 作业 需要 reduce 阶 段 ，main( ) 函数 代码 添加 了 必要 的 
Reducer 类 ， 并 在 没有 其 他 特殊 指定 (本 例 中 是 
TextOutputFormat 类 ) 的 情况 下 隐 式 地 使 用 默认 值 。 


显然 ， 这 是 一 个 非常 简单 的 例子 ， 实 际 上 用 户 不 得 不 执行 更 多 的 
分 析 处 理 。 但 即便 如 此 ， 例 子 所 展现 的 模式 与 之 前 仍 类 似 : 用 户 从 表 


中 读 取 数据 ， 提 取 必 要 信息 ， 最 终 将 结果 输出 到 一 个 特定 目标 。 


7.2.4 ”数据 源 与 数据 流向 


如 上 节 所 描述 的 ， 一 个 MapReduce 作 业 中 的 源 和 目标 都 可 以 是 
HBase 表 ， 但 也 有 可 能 在 一 个 作业 中 同时 使 用 HBase 作 为 输入 和 输出 。 
换 名 话说， 第 三 类 的 MapReduce 模 板 同 时 使 用 HBase 表 作为 输入 与 输 
出 。 这 里 需要 将 TableInputFormat #ilTableOutputFormat Rix 
eee 。 如 前 所 述 ， 这 意味 着 不 同 的 键 值 类 型 ， 如 

17.3 有 所 不 。 


例 7.3 ”MapReduce 作 业 解 析 每 行 数据 为 若干 列 


static class ParseMapper 
extends TableMapper< ImmutableBytesWritable, Writable> { 


private JSONParser parser = new JSONParser(); 
private byte[] columnFamily = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 
columnFamily = Bytes.toBytes( 
context.getConfiguration().get("conf.columnfamily") ); 


} 


@Override 
public void map(ImmutableByteswWritable row, Result columns, 
Context context) 
throws IOException { 
context.getCounter(Counters.ROWS).increment(1); 
String value = null; 
try { 
Put put = new Put(row.get()); 
for (KeyValue kv : columns.list()) { 
context .getCounter(Counters.COLS).increment(1); 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value); 
for (Object key : json.keySet()) { 
Object val = json.get(key); 
put.add(columnFamily, Bytes.toBytes(key.toString()),@ 
Bytes.toBytes(val.toString())); 
} 


context.write(row, put); 


context.getCounter(Counters.VALID).increment(1); 
} catch (Exception e) { 
e.printStackTrace(); 
System.err.printlin("Error: " + e.getMessage() + ", Row: " + 
Bytes.toStringBinary(row.get()) + ", JSON: " + value); 
context.getCounter(Counters.ERROR).increment(1); 
} 
} 
} 


public static void main(String[] args) throws Exception { 


Scan scan = new Scan(); 
if (column != null) { 
byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column) ); 
if (colkey.length > 1) { 
scan.addColumn(colkey[0], colkey[1]); 
conf.set("conf.columnfamily", 
Bytes.toStringBinary(colkey[0]));@ 
conf.set("conf.columnqualifier", 
Bytes.toStringBinary(colkey[1])); 
} else { 
scan.addFamily(colkey[®0]); 
conf.set("conf.columnfamily", 
Bytes.toStringBinary(colkey[0])); 
} 


} 


Job job = new Job(conf, "Parse data in " + input + ", write to " 
+ output); 
job.setJarByClass(ParseJson.class); 
TableMapReduceUtil.initTableMapperJob(input, scan, 
ParseMapper.class, © 
ImmutableBytesWritable.class, Put.class, job); 
TableMapReduceUtil.initTableReducer Job(output, © 
IdentityTableReducer.class, job); 


System.exit(job.waitForCompletion(true) ? © : 1); 


} 


@ 将 顶层 的 JSON 记 录 的 键 存 储 为 列 ， 其 值 的 集合 存储 为 列 值 。 
@ 在 mapper 的 配置 实例 中 存储 列 族 以 备 后 用 。 
目 使 用 通用 方法 设置 map 阶 段 的 细节 。 


@ 配 置 一 个 reducer 实 例 用 于 存储 解析 后 的 数据 。 


这 个 例子 使 用 通用 方法 配置 map 阶 段 和 reduce 阶 段 ， 并 用 到 了 
ParseMapper 类 ， 这 个 类 用 于 从 一 行 原 始 JSON 数 据 中 提取 信息 ， 还 
使 用 了 IdentityTableReducer 类 将 数据 存储 到 目标 表 。 请 注意 ， 
源 表 与 目标 表 可 以 是 相同 的 。 用 户 可 以 通过 以 下 命令 行 提交 作业 : 


$ hadoop jar target/hbase-book-ch07-1.0-job.jar ParseJson \ 


-i testtable -c data:json -o testtable 


11/08/08 17:44:33 INFO mapreduce.TableOutputFormat: \ 

Created table instance for testtable 

11/08/08 17:44:33 INFO mapred.JobClient: Running job: 
job_201108081021 0026 

11/08/08 17:44:34 INFO mapred.JobClient: map 0% reduce 0% 
11/08/08 17:44:41 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 17:44:50 INFO mapred.JobClient: map 100% reduce 100% 
11/08/08 17:44:52 INFO mapred.JobClient: Job complete: 
job_201108081021 0026 


这 个 百分比 表示 map 阶 段 与 reduce 阶 段 已 经 完成 ， 并 且 整 个 作业 也 
已 经 完成 。 使 用 IdentityTableReducer 类 存储 数据 并 不 是 必需 
的 ， 实 际 上 ， 只 需要 在 代码 中 增加 一 行 就 可 以 让 作业 只 拥有 map 阶 段 。 
例 7.4 展 示 了 需要 增加 的 一 行 代 码 。 


例 7.4 MapReduce 作 业 解 析 每 行 数据 为 若干 列 ( 仅 限 map 阶 段 ) 


Job job = new Job(conf, "Parse data in " + input + ", write to " + 
output +"(maponly)"); 
job.setJarByClass(ParseJson2.class); 
TableMapReduceUtil.initTableMapperJob(input, scan, 
ParseMapper.class, 
ImmutableByteswritable.class, Put.class, job); 
TableMapReduceUtil.initTableReducerJob(output, 
IdentityTableReducer.class, job); 
job.setNumReduceTasks(0) ; 


用 户 可 以 从 命令 行 展示 的 正在 运行 的 作业 中 看 出 reduce 阶 段 已 经 被 
Bye T : 


$ hadoop jar target/hbase-book-ch07-1.0-job.jar ParseJson2 \ 


-i testtable -c data:json -o testtable 


11/08/08 18:38:10 INFO mapreduce.TableOutputFormat: \ 
Created table instance for testtable 

11/08/08 18:38:11 INFO mapred.JobClient: Running job: 
job_201108081021 0029 

11/08/08 18:38:12 INFO mapred.JobClient: map 0% reduce 0% 
11/08/08 18:38:20 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 18:38:22 INFO mapred.JobClient: Job complete: 
job_201108081021 0029 


reduce 阶 段 一 直 显 示 为 0%0， 直 到 作业 完成 。 用 户 可 以 使 用 Hadoop 
MapReduce 的 UI 来 确认 已 执行 的 作业 确实 没有 reduce 阶 段 。 跳 过 reduce 
阶段 的 优点 是 可 以 更 快 地 完成 作业 ， 这 是 由 于 框 染 不 需要 增加 额外 的 
数据 处 理工 作 。 


这 两 个 不 同 的 ParseJson 作 业 的 作用 相同 ， 用 户 可 以 通过 HBase 
Shell 查 看 其 结果 〈 由 于 展示 空间 的 缘故 ， 省 略 重 复 的 行 键 ) : 


hbase(main):001:0> scan 'testtable' 


\XFB! Nn\x8F\x89}\xD8\x91+\xB909\xB3E\xDO 
column=data:author, timestamp=1312821497945, value=bookrdr3 
column=data:comments, timestamp=1312821497945, 
value=http://delicious.com/ur1/409839abddbce807e4db07bf 7d9cd7ad 


column=data:guidislink, timestamp=1312821497945, value=false 
column=data:id, timestamp=1312821497945, 


value=http://delicious.com/ur1/409839abddbce807e4db07bf 7d9cd7ad#boo 
krdr3 
column=data:link, timestamp=1312821497945, 
value=http://sweetsassafras.org/2008/01/27/how-to-alter-a-wool - 
sweater 


column=data:updated, timestamp=1312821497945, 
value=Mon, 07 Sep 2009 18:22:21 +0000 


993 row(s) in 1.7070 seconds 


这 个 导入 过 程 利用 了 HBase 文 持 任 意 列 名 的 特点 : JSON 的 键 被 转 
化 为 列 限 定 符 ， 并 形成 了 新 的 一 列 。 


7.2.5” 自 定义 处 理 


用 户 并 非 必 须 使 用 HBase 提 供 的 类 来 读 写 表 数 据 ， 实 际 上 这 些 类 非 
常 轻 量 级 并 且 仅 起 到 了 辅助 类 的 作用 。 例 7.5 改 变 了 前 面 的 代码 ， 以 将 
已 解析 的 JSON 数 据 拆 分 到 两 张 不 同 的 目标 表 中 ， 链 接 和 它 对 应 的 值 存 
储 到 了 一 张 名 为 1inktable 的 独立 的 表 中 ， 而 其 他 列 则 存储 到 了 名 为 
infotable 的 表 中 。 


例 7.5 ”MapReduce 作 业 解 析 每 行 数据 为 若干 列 


static class ParseMapper 
extends TableMapper< ImmutableByteswritable, Writable> { 


private HTable infoTable null; 

private HTable linkTable null; 

private JSONParser parser = new JSONParser(); 
private byte[] columnFamily = null; 


@Override 
protected void setup(Context context) 
throws IOException, InterruptedException { 
infoTable = new HTable(context.getConfiguration(), 
context.getConfiguration().get("conf.infotable"));@ 
infoTable.setAutoFlush( false); 


linkTable = new HTable(context.getConfiguration(), 
context.getConfiguration().get("conf.linktable")); 

linkTable.setAutoFlush( false); 

columnFamily = Bytes.toBytes( 
context.getConfiguration().get("conf.columnfamily") ); 


@Override 

protected void cleanup(Context context) 

throws IOException, InterruptedException { 
infoTable.flushCommits(); 
linkTable.flushCommits();@ 


} 


@Override 
public void map(ImmutableByteswritable row, Result columns, 
Context context) 
throws IOException { 
context.getCounter(Counters.ROWS).increment(1); 
String value = null; 
try { 
Put infoPut = new Put(row.get()); 
Put linkPut = new Put(row.get()); 
for (KeyValue kv : columns.list()) { 
context.getCounter(Counters.COLS).increment(1); 
value = Bytes.toStringBinary(kv.getValue()); 
JSONObject json = (JSONObject) parser.parse(value); 
for (Object key : json.keySet()) { 
Object val = json.get(key); 
if ("link".equals(key)) { 
linkPut.add(columnFamily, Bytes.toBytes(key.toString()), 
Bytes.toBytes(val.toString())); 
} else { 
infoPut.add(columnFamily, Bytes.toBytes(key.toString()), 
Bytes.toBytes(val.toString())); 


} 
} 


infoTable.put(infoPut); © 
linkTable.put(linkPut) ; 
context.getCounter(Counters.VALID).increment(1); 

} catch (Exception e) { 
e.printStackTrace(); 
System.err.printin("Error: " + e.getMessage() + ", Row: " + 

Bytes.toStringBinary(row.get()) + ", JSON: " + value); 

context .getCounter(Counters.ERROR).increment(1); 


} 
} 
} 


public static void main(String[] args) throws Exception { 
conf.set("conf.infotable", cmd.getOptionValue("o"));@ 
conf.set("conf.linktable", cmd.getOptionValue("1")); 


Job job = new Job(conf, "Parse data in " + input + ", into two 
tables"); 

job.setJarByClass(ParseJsonMulti.class); 

TableMapReduceUtil.initTableMapperJob(input, scan, 


ParseMapper.class, 
ImmutableBytesWritable.class, Put.class, job); 


job.setOutputFormatClass(NullOutputFormat.class);® 


job.setNumReduceTasks (0); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 


@ 在 setup( ) 方法 中 创建 并 配置 两 张 目标 表 。 
@ 当 任务 完成 时 ， 刷 新 所 有 挂 起 的 提交 。 


目 保 存 已 解析 的 数据 到 两 张 不 同 的 表 中 。 
@ 在 mapper 的 配置 实例 中 存储 表 名 以 备 后 用 。 
日 设置 框架 会 忽略 的 输出 格式 。 


Wa 


一 一 全 用户 需要 创建 两 张 表 ， 请 使 用 HBase Shell 进 行 以 下 
操作 : 


hbase(main):001:0> create 'infotable', 'data' 


hbase(main):002:0> create 'linktable', 'data' 


| 


在 当前 例 于 中 ， 这 两 张 表 将 会 被 用 作 目 标 存 储 表 。 


通过 如 下 命令 行 执行 作业 ， 并 名 略 输出 内 容 : 


$ hadoop jar target/hbase-book-ch07-1.0-job.jar ParseJsonMulti \ 


-i testtable -c data:json -o infotable -1 linktable 


11/08/08 21:13:57 INFO mapred.JobClient: Running job: 
job_201108081021 0033 

11/08/08 21:13:58 INFO mapred.JobClient: map 0% reduce 0% 
11/08/08 21:14:06 INFO mapred.JobClient: map 100% reduce 0% 
11/08/08 21:14:08 INFO mapred.JobClient: Job complete: 
job_201108081021 0033 


到 目前 为 止 ， 这 类 似 于 之 前 解析 JSON 的 示例 ， 所 不 同 的 是 结果 表 
及 其 内 容 。 用 户 可 以 在 作业 完成 后 使 用 HBase Shell 和 扫 摘 命令 罗列 内 
容 。 用 户 可 以 从 中 看 出 链接 (link) 表 只 包含 了 链接 ， 而 信息 (info) 
表 则 包含 了 原 JSON 数 据 的 剩余 字段 。 


用 户 可 以 通过 目 行 编写 的 MapReduce 代 码 来 控制 作业 的 执行 内 容 。 
例如 ， 用 户 可 以 在 存储 组 合 结果 的 不 同 表 中 查询 数据 。 用 户 从 哪里 读 
数据 和 癌 哪 里 写 数据 是 不 受 限 制 的 。HBase 提 供 的 类 是 辅助 类 ， 或 多 或 
少 地 服务 了 大 量 的 用 例 。 如 果 用 户 发 现 了 它们 功能 上 的 限制 ， 可 以 简 
el ]， 或 直接 通过 MapReduce 的 API 实 现 可 以 以 任何 形式 访问 
HBase 的 代码 ° 


Bein ”架构 
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择 系统 的 内 部 运行 机 制 是 一 件 很 有 益处 的 事情 。 本 章 将 深入 介绍 HBase 
各 个 组 成 部 分 以 及 它们 之 间 如 何 协同 工作 。 


8.1 数据 查找 和 传输 


我 们 详细 分 析 架 构 前 ， 会 首先 介绍 典型 的 RDBMS 和 其 他 非 关系 型 
数据 库 底 层 存 储 结构 之 间 的 不 同 。 我 们 会 重点 介绍 B 树 和 B+ 树 9 ， 这 
两 种 数据 结构 被 关系 型 存储 引擎 广泛 采用 ， 同 时 还 有 LSM 树 (Log- 
Structured Merge Tree) 2 ， 它 在 某 种 程度 上 构成 了 BigTable 的 底层 存储 
架构 ， 这 些 曾 在 1.4 节 中 讨论 过 。 
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& 请 注意 ，RDBMS 所 使 用 的 存储 架构 并 不 局 限于 B 
树 ， 也 不 是 所 有 NoSQL 解 决 方案 采用 的 架构 都 与 RDBMS 不 
同 。 你 将 会 看 到 各 种 各 样 的 技术 被 组 合 到 一 起 ， 同 时 它们 又 
服务 于 一 个 共同 的 目标 : 为 当前 的 问题 提供 最 好 的 存储 策 
H © 


8.1.1 B+ ht 


B+ 树 的 一 些 特性 使 其 能 够 通过 主键 对 记录 进行 高 效 插入 、 查 找 以 
及 删除 。 它 表示 为 一 个 动态 、 多 层 并 有 上 下 界 的 索引 。 同 时 要 注意 维 
护 每 一 段 (也 被 称 作 页 表 ) 所 包含 的 主键 数目 。 分 段 B+ 树 的 效果 远 好 
于 二 又 树 的 数据 划分 ， 其 大 大 减少 了 查询 特定 主键 所 需 的 MO 操作 。 


除 此 以 外 ，B+ 树 能 够 提供 高 效 的 范围 扫描 功能 ， 这 得 益 于 它 的 叶 
方 点 相互 连接 并 且 按 主键 有 序 ， 扫 描 时 避免 了 耗 时 的 衣 历 树 操 作 。 这 
也 是 B+ 树 伞 天 系 型 数据 库 用 作 索 引 的 原因 之 一 。 


在 一 棵 B+ 树 索引 中 ， 用 户 可 以 得 到 页 表 (在 一 些 系统 中 被 称 作 
H) 级 别 的 位 置信 息 ， 例 如 ， 叶 节点 页 表 如 下 : 


[link to previous page] 
[link to next page] 
key1 -rowid 


key2 -rowid 
key3 -rowid 


为 了 添加 一 个 新 的 索引 项 key1.5 ， 需 要 更 新 叶 节 点 页 表 并 添加 一 
个 新 的 索引 项 key1.5 并 指向 对 应 的 rowid。 对 于 一 个 有 固定 大 小 的 
页 表 来 说 ， 页 表 大 小 超过 容量 限制 时 就 会 产生 问题 。 这 时 需要 将 该 页 
表 拆 分 成 两 个 新 的 页 表 ， 同 时 更 新 原 页 表 的 父 市 点 ， 并 使 其 指向 刚 创 
建 的 两 个 新 节点 。 可 以 把 图 8-1 当 做 一 个 例子 ， 向 图 中 的 一 个 满 页 表 添 
加 新 的 键 时 会 拆 分 页 表 。 
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图 8-1 一 个 满 页 表 的 B+ 树 


现在 的 问题 是 ， 新 建 的 两 个 页 表 在 硬盘 中 并 不 一 定 是 彼此 相 令 
的 。 如 果 要 进行 一 次 从 key1 到 key3 的 范围 查询 ， 则 需要 读 取 两 个 在 
磁盘 上 不 连续 甚至 可 能 相隔 很 远 的 时节 点 页 表 。 这 也 是 为 什么 我 们 在 
大 部 分 基于 B+ 树 的 设计 中 都 能 找到 一 组 被 称 为 OPTIMIZE TABLE (fit 
化 表 ) 命令 的 原因 ，B+ 树 这 种 数据 组 织 方式 只 是 简单 地 按 顺 序 把 表 重 
写 ， 从 而 使 表 的 范围 查询 变 成 了 位 一 的 多 段 连 续 读 取 。 


8.1.2 LSM 树 


LSM 树 (log-structured merge-tree) 则 按 男 一 种 方式 组 织 数 据 。 输 
入 数据 首先 被 存储 在 日 志文 件 ， 这 些 文件 内 的 数据 完全 有 序 。 当 有 上 日 
志文 件 被 修改 时 ， 对 应 的 更 新 会 被 先 保 存在 内 存 中 来 加 速 查 询 。 


当 系 统 经 历 过 许多 次 数据 修改 ， 且 内 存 空 间 被 逐渐 被 占 满 后 ， 
LSM 树 会 把 有 序 的 “ 键 -记录 ”对 写 到 磁 副 中 ， 同 时 创建 一 个 新 的 数据 存 
储 文件 。 此 时 ， 因 为 最 近 的 修改 都 被 持久 化 了 ， 内 存 中 保存 的 最 近 更 
rw A] AMA FE T° 
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成 ， 也 整 是 说 ， 系 统 将 现 有 的 页 与 内 存 刷 写 数据 混合 在 一 起 进行 管 
理 ， 直 到 数据 块 达 到 它 的 容量 。 


图 8-2 展 示 了 在 内 存 中 多 个 块 存储 归并 到 磁 副 的 过 程 ， 合 并 写 入 会 
产生 一 个 新 的 结 末 块 ， 最 终 多 个 块 彼 合并 为 更 大 块 。 


In Memory : Merge Multi-Page Blocks On Disk 


图 8-2 LSM 树 中 的 多 页 数据 块 欠 代 合 并 的 过 程 


多 次 数据 刷 写 之 后 会 创建 许多 数据 存储 文件 ， 后 人 台 线 程 束 会 自动 
将 小 文件 聚合 成 大 文件 ， 这 样 磁 盘查 找 就 会 被 限制 在 少数 几 个 数据 存 
储 文件 中 。 磁 盘 上 的 树 结构 也 可 以 拆 分 成 独立 的 小 单元 ， 这 样 更 新 就 
可 以 被 分 散 到 多 个 数据 存储 文件 中 。 所 有 的 数据 存储 文件 都 按键 排 
序 ， 所 以 没有 必要 在 存储 文件 中 为 新 的 键 预 留 位 置 。 


查询 时 先 查 找 内 存 中 的 存储 ， 然 后 再 查找 磁盘 上 的 文件 。 这 样 在 
客户 症 看 来 数据 存储 文件 的 位 置 是 透明 的 。 


删除 是 一 种 特殊 的 更 改 ， 当 删除 标记 被 存储 之 后 ， 碍 找 会 跳 过 这 
些 删除 过 的 键 。 当 页 被 重 写 时 ， 有 删除 标记 的 键 会 被 丢弃 。 

此 外 ， 后 台 运 维 过 程 可 以 处 理 预先 设 定 的 删除 请 求 。 这 些 请 求 由 
TTL (time-to-live) 触发 ， 例 如 ， 当 TTL 设 为 20 天 后 ， 合 并 进程 会 检查 
这 些 预 设 的 时 间 戳 ， 同 时 在 重 写 数据 块 时 丢弃 过 期 的 记录 。 


和 LSM 树 最 主要 的 区 别 在 于 它们 的 结构 如 何 利 用 便 件 ， 特 别 古 


TJ 


查找 与 排序 和 合并 的 性 能 瓶颈 O 


我 们 的 大 规模 计算 策略 受制 于 磁盘 传输 ， 尽 管 CPU、 
RAM 和 磁盘 大 小 每 18~24 个 月 翻 一 番 ， 但 数据 查找 的 速度 


每 年 只 能 提高 59% ° 


如 上 面 讨论 的 ， 在 数据 库 中 有 两 种 范式 ， 一 种 是 利用 
存储 的 随机 查找 能 力 ， 男 一 种 是 利用 存储 的 连续 传输 能 
力 。 随 机 查找 在 RDBMS 中 是 由 B- 树 和 B+ 树 数 据 结 构 组 
织 。 它 工作 的 速度 受制 于 人 磁盘 的 寻 道 速度 ， 每 次 查找 需要 
访问 磁盘 log(N) 次 。 


另 一 方面 ， 存 储 的 连续 传输 能 力 被 LSM 树 使 用 ， 并 以 
一 定 的 传输 速率 排序 和 合并 文件 ， 需 要 执行 
log(updates) 次 操作 。 在 以 下 给 定数 值 的 情况 下 ， 其 
性 能 对 比如 下 : 


。 10 MB/s 的 传输 


带 
。 10 ms 的 磁盘 寻 道 时 间 ; 


。 每 条 目 100 字 节 (100 亿 条 目 ) ; 
。 每 页 10 KB (10 亿 页 ) 。 
更 新 1% 条 目 (100000000) 所 需 的 时 间 : 


。 使 用 随机 B- 树 更 新 需要 1000 天 ; 


。 使 用 批量 B- 树 更 新 需要 100 天 ; 
。 使 用 排序 和 合并 需要 1 天 。 


由 此 我 们 能 断定 ， 与 利用 存储 的 连续 传输 能 力 相 比 ， 
大 规模 数据 查找 非常 低 效 。 


比较 B+ 树 和 LSM 树 的 意义 在 于 理解 它们 的 相对 优势 和 不 足 。 在 没 
有 太 多 的 修改 时 ，B+ 树 表现 得 很 好 ， 因 为 这 些 修改 要 求 执 行 高 代价 的 
优化 操作 以 保证 查询 能 在 有 限时 间 内 完成 。 在 任意 位 置 添加 数据 的 规 
模 越 大 、 速 度 越 快 ， 这 些 页 成 为 碎 搬 的 速度 就 越 快 。 最 后 ， 用 户 写 入 
的 速度 可 能 比 优化 后 重 写 文件 的 处 理 速度 更 快 。 由 于 更 新 和 删除 以 磁 
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它们 使 用 日 志文 件 和 内 存 存储 来 将 随机 写 转 换 成 顺序 写 ， 因 此 也 能 保 
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冲突 。 


由 于 存储 数据 的 布局 较 优 ， 查 询 一 个 键 需要 的 磁盘 寻 道 次 数 在 一 
个 可 预测 的 范围 内 ， 并 且 读 取 与 该 键 连续 的 任意 数量 的 记录 都 不 会 引 
发 任何 额外 的 磁盘 寻 道 。 一 般 来 说 ， 基 于 LSM 树 的 系统 强调 的 是 成 本 
透明 : 假如 有 5 个 存储 文件 ， 一 个 访问 需要 最 多 5 次 磁 弄 寻 道 。 反 观 关 
系 型 数据 库 ， 即 使 在 存在 索引 的 情况 下 ， 它 也 没有 办 法 确定 一 次 查询 
需要 的 磁盘 寻 道 次 数 。 


最 终 ，HBase 与 BigTable 一 样 ， 都 是 基于 LSM 树 的 系统 。 下 一 将 
解释 存储 架构 ， 并 将 涉及 本 书 之 前 章节 中 的 内 容 。 


8.2 存储 


HBase 一 个 很 少 为 人 知 的 内 容 就 是 数据 存储 ， 因 为 大 部 分 用 户 都 不 
会 接触 到 它 的 底层 存储 结构 ， 不 过 如 采用 户 想 使 用 一 些 进 阶 的 配置 选 
项 就 有 必要 了 解 这 些 内 容 了 。 第 11 章 列举 了 一 些 常 用 的 进 阶 配置 ， 同 
时 附录 A 中 有 一 份 完整 的 列表 。 


用 户 需要 了 解 撒 层 存储 结构 的 另 一 个 原因 是 ， 当 某 些 原因 导致 系 
统 出 现 重大 问题 时 ， 用 户 可 能 需要 恢复 HBase 中 的 数据 。 此 时 用 户 惑 需 
要 知道 数据 存在 何 处 ， 以 及 如 何 从 HDFS 中 访问 这 些 内 容 。 当 然 ， 这 种 
情况 不 应 当 发 生 ， 但 在 实际 的 系统 中 ， 任 何 异 前 情况 都 是 可 能 的 。 


8.2.1 概览 


了 解 HBase 存 储 层 中 大 量 移 动 块 的 第 一 步 是 画 一 个 顶层 结构 图 。 图 
8-3 展 示 了 HBase 是 如 何 与 Hadoop 文 件 系统 协作 完成 数据 存储 的 。 


图 8-3 ”HBase 如 何 透明 地 操作 存储 在 HDFS 上 文件 的 概览 


从 这 张 图 可 以 看 出 HBase 主 要 处 理 两 种 文件 ， 一 种 是 预 写 日 志 
(Write-Ahead Log, WAL) ， 男 一 种 是 实际 的 数据 文件 。 这 两 种 文件 
主要 由 HRegionServer 管理 。 在 某 些 情况 下 ，HMaster 也 可 以 进行 
一 些 底层 的 文件 操作 (在 0.92.0 中 与 0.90.x 中 稍 有 不 同 。 当 存储 数据 
到 HDFS 中 时 ， 用 户 可 能 注意 到 实际 的 数据 文件 会 被 切 分 成 更 小 的 块 。 
也 正 是 这 一 点 ， 用 户 可 以 配置 系统 来 更 好 地 处 理 较 大 或 较 小 的 文件 。 
更 多 的 信息 请 参阅 8.2.4 节 。 


一 个 基本 的 流程 是 客户 端 首先 联系 ZooKeeper 子 集群 (quorum) 
(一 个 由 ZooKeeper 节 点 组 成 的 单独 集群 ) 查找 行 键 。 上 壕 过 程 是 通过 
ZooKeeper 获 取 含 有 -ROOT 的 region 服 务 器 名 (主机 名 ) 来 完成 的 。 通 
过 含有 -ROOT- 的 region 服 务 器 可 以 查询 到 含有 ,META. 表 中 对 应 的 
region 服 务 右 名 ， 其 中 包含 请 求 的 行 刍 信息。 这 两 处 的 主要 内 容 都 被 绥 
存 下 米 了 ， 并 且 都 只 查询 一 次 。 最 终 ， 通 过 查询 .META. 服 务 器 来 获取 
客户 端 查询 的 行 键 数据 所 在 region 的 服务 器 名 。 


一 旦 知道 了 数据 的 实际 位 置 ， 即 region 的 位 置 ，HBase 会 缓存 这 次 
查询 的 信息 ， 同 时 直接 联系 管理 实际 数据 的 HRegionServer 。 所 
以 ， 之 后 客户 端 可 以 通过 缓存 信息 很 好 地 定位 所 需 的 数据 位 置 ， 而 不 
用 再 次 查找 .META. 表 ， 参 见 8.5 节 。 
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一 启动 HBase 时 ，HMaster 负责 将 所 有 region 分 配 到 


每 个 HRegion Server 上 ， 其 中 也 包括 特别 的 -ROOT- 
和 .META. Š, BILB.675 © 


HRegionServer 负责 打开 region， 并 创建 对 应 的 HRegion 实 
例 。 当 HRegion 被 打开 后 ， 它 会 为 每 个 表 的 HColumnFamily 创建 一 
个 Store 实例 ， 这 些 列 族 是 用 户 之 前 创建 表 时 定义 的 。 每 个 Strore 
实例 包含 一 个 或 多 个 StoreFile 实例 ， 它 们 是 实际 数据 存储 文件 


HFile 的 轻 量 级 封装 。 每 个 Store 还 有 其 对 应 的 一 个 MemStore ， 一 
个 HRegionServer 分 享 了 一 个 HLog 实例 〈 参 见 8.3 节 ) ° 


8.2.2 ” 写 路 径 


当 用 户 向 HRegionServer 发 起 HTable .put(Put ) 请 求 时 ， 其 
会 将 请 求 交 给 对 应 的 HRegion 实例 来 处 理 。 第 一 步 是 要 决定 数据 是 否 
需要 写 到 由 HLog 类 实现 的 预 写 日 志 中 。 WAL 是 标准 的 Hadoop 
SequenceFile ， 并 且 存 储 了 HLogKey 实例 。 这 些 键 包 括 序列 号 和 
实际 数据 ， 所 以 在 服务 器 般 总 时 可 以 回 滚 还 没有 持久 化 的 数据 。 


一 旦 数据 被 写 入 到 WAL 中 ， 数 据 残 会 被 放 到 MemStore 中 。 同 时 
还 会 检查 MemStore EFCA, WRIT, MERE KE PR 
盘 中 去 。 刷 写 请 求 由 另外 一 个 HRegionServer 的 线程 处 理 ， 它 会 把 
数据 写成 HDFS 中 的 一 个 新 HFile 。 同 时 也 会 保存 最 后 写 入 的 序号 ， 系 
统 就 知道 哪些 数据 现在 被 持久 化 了 。 


关闭 前 预 刷 写 


memstore 被 刷 写 到 磁盘 的 第 二 个 理由 是 : 预 刷 写 
(prefushing) 。 当 region 服 务 器 被 要 求 关 闭 时 ， 会 首先 检 
查 memstore， 任 何 大 于 配置 值 
hbase.hregion.preclose. flush.size (默认 值 
为 5 MB) 的 memstore 会 刷 写 到 磁盘， 然后 在 最 后 一 轮 阻塞 
正常 访问 的 刷 写 后 关闭 region 。 


男 一 方面 ， 天 闭 region 服 务 絮 会 强制 所 有 的 memstore 
被 刷 写 到 磁盘 ， 而 不 会 关心 memstore 是 否 达 到 了 配置 的 最 
大 值 ， 可 以 使 用 配置 项 hbase ,hregion.memstore， 
flush.size (默认 值 为 64 MB) 或 者 通过 创建 表 (查看 
5.1.2 节 的 “文件 大 小 限制 *”) 来 进行 设置 。 一 旦 所 有 的 


memstore 都 被 刷 写 到 了 磁盘 ，region 会 被 天 财 ， 且 在 转移 
到 其 他 region 服 务 器 时 不 会 重 做 WAL 。 


使 用 额外 的 一 轮 预 刷 写 会 提高 region 的 可 用 性 ， 在 预 
刷 写 时 ， 服 务 絮 与 region 仍 旧 可 用 ， 这 类 似 于 通过 API 或 
Shell 命 令 调 用 刷 写 (flush) 。 当 剩 下 的 比较 小 的 memstore 
完成 了 第 二 轮 刷 写 时 ， 此 时 会 停止 所 有 请 求 。 这 一 轮 刷 写 
会 保存 预 刷 写 过 程 中 的 所 有 修改 ， 以 保证 服务 器 可 以 干净 
地 退出 。 


8.2.3 ”文件 


HBase 使 用 一 个 HDFS 中 可 配置 的 根 目录 ， 默 认 设 为 "/hbase" ° 
12.3.1 广 展示 了 如 何 使 用 不 同根 目录 来 让 多 个 HBase 集 群 共享 HDFS。 用 
户 可 以 使 用 hadoop dfs-lsr 命令 来 查看 HBase 的 目录 结构 。 在 这 之 前 ， 我 
们 先 建立 一 个 包含 多 个 region 的 表 。 


hbase(main):001:0> create 'testtable', 'colfam1',\ 


{ SPLITS => ['row-300', 'row-500', 'row-700', 'row-900'] }</ 
0 row(s)in 0.1910 seconds 


hbase(main):002:0> for iin '0'..'9' do for j in '0'..'9' do \ 
for k in '0'..'9' do put 'testtable', "row-#{i}#{j}#{k}",\ 
"colfam1:#{j}#{k}", "#{j}#{k}" end end end 


row(s)in 1.0710 seconds 
row(s)in 0.0280 seconds 
row(s)in 0.0260 seconds 


" OOO 


hbase(main) :003:0> flush 'testtable' 


0 row(s)in 0.3310 seconds 


hbase(main):004:0> for i in '0'..'9' do for j in '0'..'9' do \ 
for k in '0'..'9' do put 'testtable', "row-#{i}#{j}#{k}",\ 
"colfam1:#{j}#{k}", "#{j}#{k}" end end end 


row(s)in 1.0710 seconds 
row(s)in 0.0280 seconds 
row(s)in 0.0260 seconds 


ooo 


flush 命令 可 以 将 内 存 中 的 数据 写 到 存储 文件 中 ， 否 则 整 必 须 等 插 
入 的 数据 达到 配置 的 刷 写 大 小 。 最 后 的 循环 使 用 put 命令 来 再 次 填充 
WAL 。 经 过 这 些 操作 后 ，HBase 的 根 目 录 结 构 如 下 : 


$ $HADOOP_HOME/bin/hadoop dfs -lsr /hbase 


© /hbase/.logs 
© /hbase/.logs/foo.internal, 60020, 1309812147645 
© /hbase/.logs/foo.internal, 60020, 1309812147645/ \ 
foo. internal%2C60020%2C1309812147645.1309812151180 
© /hbase/.oldlogs 
38 /hbase/hbase. id 
3 /hbase/hbase.version 
© /hbase/testtable 
487 /hbase/testtable/.tableinfo 
© /hbase/testtable/.tmp 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/.oldlogs 
124 /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/ .oldlogs/ 
\ 
hlog.1309812163957 
282 
/hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/.regioninfo 


© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/. tmp 
© /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/colfami 
11773 /hbase/testtable/1d562c9c4d3b8810b3dbeb21f5746855/colfami/ 


\ 
646297264540129145 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c7f7b26 
311 


/hbase/testtable/66b4d2adcc25f1643da5e6260c7f7b26/.regioninfo 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c7F7b26/. tmp 
© /hbase/testtable/66b4d2adcc25f1643da5e6260c7 f7b26/colfam1 
7973 /hbase/testtable/66b4d2adcc25f1643da5e6260c7f7b26/colfami1/ 


\ 
3673316899703710654 
© /hbase/testtable/99c0716d66e536d927b479af4502bc91 
297 


/hbase/testtable/99c0716d66e536d927b479af4502bc91/.regioninfo 
© /hbase/testtable/99c0716d66e536d927b479aF4502bc91/. tmp 
© /hbase/testtable/99c0716d66e536d927b479aF4502bc91/colfam1 
4173 /hbase/testtable/99c0716d66e536d927b479aFf4502bc91/colfam1i/ 


\ 
1337830525545548148 
© /hbase/testtable/d240e0e57dcf4a7e11F4c0b106a33827 
311 


/hbase/testtable/d240e0e57dcf4a7e11F4c0b106a33827/.regioninfo 
© /hbase/testtable/d240e0e57dcf4a7e11f 4c0b106a33827/. tmp 
© /hbase/testtable/d240e0e57dcf4a7e11f4c0b106a33827/colfam1 
7973 /hbase/testtable/d240e0e57dcf4a7e11f4c0b106a33827/colfami/ 


\ 
316417188262456922 
© /hbase/testtable/d9ffc3a5cd016ae58e23d7a6Cb937949 
311 


/hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/.regioninfo 
© /hbase/testtable/d9f fc3a5cd016ae58e23d7a6cb937949/. tmp 
© /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/colfam1 
7973 /hbase/testtable/d9ffc3a5cd016ae58e23d7a6cb937949/colfami/ 


\ 
4238940159225512178 


Wa 


HE 由 于 篇 幅 原因 ， 输 出 结果 被 精简 到 只 有 目录 及 文件 
的 大 小 。 用 户 自己 执行 这 些 命令 时 可 以 看 到 更 多 的 细节 。 


文件 可 以 被 分 为 两 类 ， 一 类 位 于 HBase 根 目录 下 ， 另 一 类 位 于 根 目 
录 中 的 表 目 录 下 。 


1. 根 级 文件 


第 一 组 文件 是 被 HLog 实例 管理 的 WAL 文 件 ， 这 些 日 志文 件 被 创建 
在 HBase 的 根 目 录 下 一 个 名 为 logs 的 目录 中 。 对 于 每 个 
HRegionServer , 日 志 目 录 中 都 包含 一 个 对 应 的 子 目录 。 在 每 个 子 
目录 中 有 多 个 HLog 文件 〈 因 为 日 志 滚动 ) 。 一 个 region 服务 器 的 所 有 
region 共 享 同 一 组 HLog 文件 。 


一 个 有 趣 的 现象 是 ， 由 于 文件 最 近 才 被 创建 ， 所 以 日 志文 件 大 小 
被 报告 为 0。 这 个 现象 很 典型 ， 由 于 HDFS 使 用 内 置 的 append HEIRE 
加 写 入 此 文件 ， 所 以 只 有 等 到 文件 大 小 达到 一 个 完整 的 块 时 ， 文 件 对 
用 户 才 是 可 见 的 一 一 包括 hadoop dfs-lsr 命令 。 虽 然 put 操 作 的 数据 被 安 
全 持久 化 了 ， 但 当前 写 入 日 志文 件 的 数据 大 小 是 稍微 仿 离 的 。 


在 等 待 一 个 小 时 后 ， 日 志文 件 被 滚动 (参见 8.3.6 节 ) ， 这 个 时 间 
是 由 hbase.regionserver .logroll.period 配置 属性 〈 默 认 设 
置 为 60 分 钟 ) 控制 的 。 此 时 ， 由 于 日 志文 件 被 关闭 ，HDFS 能 列 出 其 正 
确 的 大 小 ， 紧 接着 它 的 下 一 个 新 日 志文 件 的 大 小 又 从 0 开始 了 : 


249962 /hbase/.1ogs/foo.internal,60020,1309812147645/ \ 
foo. internal%2C60020%2C1309812147645.1309812151180 


© /hbase/.logs/foo.internal, 60020, 1309812147645/ \ 
foo. internal%2C60020%2C1309812147645.1309815751223 


当 所 有 包含 的 修改 都 被 持久 化 到 存储 文件 中 ， 从 而 不 再 需要 日 志 
文件 时 ， 它 们 会 被 放 到 HBase 根 目录 下 的 .oldlogs 目录 中 。 当 条 件 满足 
配置 上 的 阀 值 会 触发 日 志 的 深 动 。 在 10 分 钟 (默认 情况 下 ) 后 ， 旧 的 
日 志文 件 将 被 master 删 除 ， 这 是 通过 
hbase.master.logcleaner.ttl 属性 设置 的 。master 每 分 钟 (EK 
认 情 况 下 ) 检查 一 次 这 些 文件 ， 这 是 通过 
hbase.master.cleaner.interval 属性 设置 的 。 


mt 
a > 4 
te" a 
L 


”过 期 的 日 志文 件 可 以 及 时 被 移 除 。 复 制 特性 (查看 
8.8 节 ) 可 以 利用 这 种 行为 来 访问 仍然 存在 的 修改 。 


hbase.id 和 hbase.version 文件 包含 集群 的 唯一 ID 和 文件 格式 版 本 信 


$ hadoop dfs -cat /hbase/hbase.id 


$e627e130-Oae2-448d -8bb5-117a8af06e97 
$ hadoop dfs -cat /hbase/hbase.version 


它们 在 内 部 使 用 ， 且 携带 的 信息 不 多 。 此 外 ， 随 着 时 间 的 推移 又 
会 有 更 多 根 级 别 的 目录 出 现 。 splitlog 和 .corrupt 文件 夹 分 别 被 用 来 存 
储 日 志 拆 分 过 程 中 产生 的 中 间 拆 分 文件 和 损坏 的 日 志 。 例 如 : 


© /hbase/.corrupt 


0 
/hbase/splitlog/foo.internal, 60020, 1309851880898 _hdfs%3A%2F%2F \ 
localhost%2Fhbase%2F . logs%2Ffoo. internal%2C60020%2C1309850971208%2F 
\ 


foo. internal%252C60020%252C1309850971208 .1309851641956/testtable/ \ 
d9ffc3a5cd016ae58e23d7a6cb937949/recovered. edits/000000000000000235 
2 


这 个 例子 中 没有 损坏 的 日 志文 件 ， 所 以 仅 显 示 了 一 个 中 间 拆 分 文 
件 。 日 志 拆 分 过 程 在 8.3.7 广 中 有 解释 。 


2. 表 级 文件 


在 HBase 中 ， 每 张 表 都 有 目 己 的 目录 ， 其 位 于 文件 系统 中 HBase 根 
目录 下 。 每 张 表 目录 包括 一 个 名 为 .tableinfo 的 顶层 文件 ， 该 文件 存储 
表 对 应 序列 化 后 的 HTableDescriptor (详情 请 查看 5.1.1 节 ) 。 其 中 
包括 表 和 列 族 的 定义 ， 同 时 其 内 容 也 可 以 被 读 取 ， 例 如 ， 用 户 可 以 使 
用 一 些 工 具 查 看 表 的 大 致 结构 。.tmp 目录 中 包含 一 些 临 时 数据 ， 例 
如 ， 当 更 新 .tableinfo 文件 时 生成 的 临时 数据 就 会 被 存放 到 该 目录 中 。 


3. region 级 文件 


在 每 张 表 的 目 孙 里 面 ， 表 模式 中 每 个 列 族 都 有 一 个 单独 的 目录 。 
目录 的 名 字 是 一 部 分 region 名 字 的 MD5 散 列 值 。 例 如 ， 下 面 的 内 容 是 在 
点 击 master 网 页 界面 中 用 户 表 区 域 的 testtable 链接 时 得 到 的 。 


testtable, row-500, 1309812163930. d9ffc3a5cd016ae58e23d7a6chb937949. 


MD5 散 列 值 是 d9ffc3a5cd016ae58e23d7a6cb937949 ， 它 是 
通过 编码 region 名 字 得 到 的 ， 例 如 ，testtable,row- 
500, 1309812163930. ， 末 尾 的 点 是 这 个 region 名 字 的 一 部 分 : EKR 
MIS r] 个 包含 散 列 值 的 新 样式 名 字 ， 在 以 前 的 HBase 版 本 中 ， aa 
名 字 不 包含 散 列 值 。 


一 一 全 注意 ，-ROoT- 和 .META. 这 些 目录 表 用 的 依然 是 
旧 命 名 格式 ， 例 如 ， 它 们 的 region 名 字 不 包括 散 列 值 ， 因 此 
末尾 不 是 以 点 结束 的 : 


.META.,,1.1028785192 


它们 在 人 磁盘 目录 的 region 名 字 的 编码 也 不 同 : 它们 用 
Jenkins 散 列 值 来 编码 region 的 名 字 。 


获 列 能 保证 目录 名称 不 违背 文件 系统 的 命名 规则 ， 它 们 不 能 包含 
任何 特殊 字符 ， 例 如 ， 用 来 划分 路 径 的 斜 线 P) 。region 文 件 的 总 体 


结构 是 : 


/< hbase-root-dir>/< tablename>/< encoded-regionname>/< column- 
family>/< filename> 


用 户 可 以 在 每 个 列 族 目录 中 看 到 实际 的 数据 文件 ， 在 8.2.4 广 有 更 
详细 的 介绍 。 这 些 文件 的 名 字 仅 仅 是 一 个 由 Java 内 置 的 随机 数 生成 套 生 
成 的 随机 数 。 代 码 能 够 智能 地 检查 出 发 生 的 碰撞 ， 即 新 生成 号 码 对 应 
的 文件 已 经 存在 。 程 序 将 一 直 循 环 ， 直 到 找到 一 个 未 使 用 的 数字 。 


region 目 了 永 中 也 有 一 个 .regioninfo 文件 ， 这 个 文件 包含 了 对 应 region 
的 HRegionInfo 实例 序列 化 后 的 信息 。 与 .tableinp 文件 类 似 ， 它 能 
被 外 部 工具 用 来 查看 region 的 相关 信息 。 例 如 ，HBase 的 hbck 工具 就 用 
它 来 检查 并 生成 元 数据 表 中 丢失 的 条 目 。 


可 选 的 .tmp 目录 是 按 需 求 创建 的 ， 它 被 用 来 存放 临时 文件 ， 例 
如 ， 一 次 合并 的 重 写 文 件 。 一 旦 这 个 过 程 完 成 ， 这 些 临时 生成 的 文件 
通 单 会 家 移 到 region 目 永 中 。 在 极 少 的 情况 下 ， 用 户 可 能 发 现 遗 留 的 文 
件 ， 这 些 文 件 将 在 region 重 新 打开 时 被 清理 掉 。 


在 WAL 回 放 时 ， 任 何 未 提交 的 修改 都 会 被 写 入 到 每 个 region 的 一 个 
单独 的 文件 中 。 以 上 是 第 一 步 〈 查 看 本 节 的 “Root 级 文件 ”的 splitod A 
K) ， 然 后 如 果 日 志 拆 分 过 程 已 经 成 功 完 成 ， 这 些 文件 将 被 自动 移动 
到 临时 的 recovered.edits 目录 中 。 当 region 补 打开 时 ，region 服 务 絮 将 会 
看 到 需要 恢复 的 文件 ， 并 且 回 放 其 中 相应 的 条 目 。 


rae 
一 一 ”WAL 的 拆 分 (参见 8.3.7 节 ) 和 region 的 拆 分 (参见 
本 节 的 “region 拆 分 ”) 有 明显 的 区 别 ， 有 时候 很 难 区 分 文件 
系统 中 的 文件 名 和 目录 名 ， 因 为 它们 的 名 称 中 都 有 拆 分 字 
样 。 用 户 需 要 仔细 辨别 它们 的 目的 来 避免 混淆 或 者 错误 。 


一 旦 region 超 过 了 配置 中 region 大 小 的 最 大 值 ，region 就 需要 拆 分 ， 
其 会 创建 一 个 对 应 的 splits 目录 ， 它 被 用 来 临时 存放 两 个 子 region 相 关 
的 数据 。 如 果 拆 分 过 程 成 功 (通常 这 个 过 程 持续 几 秒 或 更 短 时 间 ) ， 
之 后 它们 会 被 移动 到 表 目 隶 中 ， 并 形成 两 个 新 的 region， 每 个 region 代 
表 原 始 region 的 一 半 。 

换 而 言 之 ， 当 用 户 看 见 一 个 region 的 目录 中 没有 .tmp 目录 ， 这 就 意 
味 着 还 没有 进行 过 压缩 操作 。 如 果 没 有 recovered.edits 日 录 ， 这 就 意味 
着 WAL 还 没有 进行 过 回放 操作 。 


ok 
一 人 在 HBase0.90.x 之 前 的 版 本 中 还 有 些 额外 的 文件 ， 这 
些 文件 现在 已 经 不 再 使 用 了 。 一 个 是 oldlogfile.log XIF, € 
包含 给 定 region 已 经 回放 过 的 WAL ° oldlogfile.log.old 文件 

(注意 额外 的 .old 后 级 名 ) 表示 当 一 个 新 的 oldlogfile.log 被 
放 进 来 时 已 经 存在 一 个 旧 的 文件 。 


在 旧版 本 的 HBase 中 ， 另 外 一 个 值得 注意 的 文件 是 
compaction.dir ， 它 现在 已 经 被 .tmp ARE ° 


以 上 总 结 了 在 HBase 根 文件 夹 中 经 党 出 现 的 各 种 目录 的 列表 。 
region 拆 分 的 过 程 还 会 产生 一 些 中 间 文 件 ， 这 些 文件 将 在 下 一 节 单 独 讨 


论 。 
4. region 拆 分 


当 一 个 region 里 的 存储 文件 增长 到 大 于 配置 的 
hbase. hregion.max.filesize 大 小 或 者 在 列 族 层 面 配置 的 大 小 
时 ，region 会 被 一 分 为 二 。 这 个 过 程 通常 非常 迅速 ， 因 为 系统 只 是 为 新 
region (也 称 作 孩子 ) 创建 了 两 个 对 应 的 文件 ， 每 个 region 是 原始 region 
( 称 作 父亲 ) 的 一 半 。 


region 服务 器 通过 在 父 region 中 创建 splits 目录 来 完成 这 个 过 程 。 接 
下 来 关闭 该 region， 此 后 这 个 region 不 再 接受 任何 请 求 。 


然后 region 服 务 器 通过 在 splits 目录 中 设立 必需 的 文件 结构 来 准备 
新 的 子 region 〈 使 用 多 线程 ) ， 包 括 新 region 上 目录 和 人 参考 文件 。 如 果 这 
个 过 程 成 功 完成 ， 它 将 把 两 个 新 region 目 录 移 到 表 目 录 中 。 ,META, 表 
中 父 region 的 状态 会 被 更 新 ， 以 表示 其 现在 拆 分 的 节点 和 子 节 点 是 什 
e a ° META. 表 中 的 内 容 
致 如 下 : 


row: testtable, row- 
500, 1309812163930. d9ffc3a5cd016ae58e23d7a6cb937949. 


column=info: regioninfo, timestamp=1309872211559, value=REGION => 
{NAME => \ 
"testtable, row- 
500, 1309812163930. d9ffc3a5cd016ae58e23d7a6cb937949. \ 
TableName => 'testtable',STARTKEY => 'row-500',ENDKEY => 'row- 
700',\ 
ENCODED => d9ffc3a5cd016ae58e23d7a6cb937949, OFFLINE => true, 
SPLIT => true, } 


column=info:splitA, timestamp=1309872211559, value=REGION => {NAME 
=> \ 
"testtable, row- 
500, 1309872211320 .d5a127167c6e2dc5106fF066cc84506F8. \ 
TableName => 'testtable',STARTKEY => 'row-500',ENDKEY => 'row- 
550',\ 
ENCODED => d5a127167c6e2dc5106f066cc84506f8, } 
column=info:splitB, timestamp=1309872211559, value=REGION => {NAME 


=> \ 
"testtable, row- 
550, 1309872211320. de27e14ffcilf3fff65ce424Ffcfi4ae42. \ 
TableName => [B@62892cc5',STARTKEY => 'row-550',ENDKEY => 'row- 
700',\ 
ENCODED => de27e14ffcif3fff6é5ce424fcf14ae42, } 


由 此 可 见 ， 原 始 region 在 row-559 如 何 被 拆 分 成 两 个 region。 在 
info:regioninfo 列 值 中 的 SPLIT => true 也 表示 region 现 在 正在 
拆 分 成 叫做 ijnfo:splitA 和 info:splitB 的 region ° 


引用 文件 的 名 字 有 是 另外 一 个 随机 数字 ， 不 过 其 后 市 有 被 引用 的 
region 的 散 列 值 作为 后 缀 ， 例 如 : 


/hbase/testtable/d5a12716/7c6e2dc5106fF066cc84506F8/colfami/ \ 
6630747383202842155.d9ffc3a5cd016ae58e23d7a6chb937949 


上 面 所 示 的 引用 文件 代表 散 列 值 为 
d9ffc3a5cd016ae58e23d7a6cb937949 的 原始 region 的 一 半 ， 这 
个 region 也 出 现在 上 面 的 例子 中 。 参 考 文件 仅 包含 很 少 的 信息 : 原始 
region 被 拆 分 处 的 键 以 及 它 是 否 为 表 顶 部 或 者 底部 的 引用 文件 。 值 得 注 
意 的 是 ， 这 些 引 用 文件 后 面 会 被 HalfHFileReader 类 (这 个 在 前 面 
a E 因为 它 只 是 短暂 地 被 使 用 ) 用 来 读 原始 region 的 数 


两 个 子 region 都 准备 好 后 ， 将 会 被 同一 个 服务 絮 并 行 打开 。 打 开 的 
过 程 包括 更 新 .META, 表 ， 这 样 可 以 把 两 个 region 像 其 他 region 一 样 作 
为 可 用 region 列 出 来 。 之 后 这 两 个 region 会 上 线 并 开始 服务 请 求 。 


同时 也 会 初始 化 为 两 个 region 并 对 region 中 的 内 容 执行 合并 ， 合 并 
过 程 在 替换 引用 文件 之 前 会 把 父 region 的 存储 文件 异步 重 写 到 两 个 子 
region 中 。 以 上 过 程 会 在 子 region 的 .tmp 目录 中 执行 。 一 旦 生成 了 重 写 
之 后 的 文件 ， 它 们 将 自动 取代 引用 文件 。 


最 终 父 region 会 被 清理 掉 ， 这 意味 着 它 在 .META, 表 中 的 表 项 会 被 
移 除 ， 并 且 筷 在 磁盘 上 所 有 的 文件 都 会 被 删除 。 最 后 ，master 被 告知 天 


于 拆 分 的 情况 ， 并 且 可 以 由 于 负载 均衡 而 把 新 region 移 动 到 其 他 region 
RAAE ° 


PaT 
ww i 
一 在 拆 分 过 程 中 ， 所 有 的 步骤 都 在 ZooKeeper 中 进行 
跟踪 。 这 使 得 在 一 个 服务 器 失效 上 时， 其 他 进程 可 以 知道 这 个 
region 的 状态 。 


5. 合并 


存储 文件 会 被 后 台 的 管理 进程 仔细 地 监控 起 来 以 确保 它们 处 于 控 
制 之 下 。 随 着 memstore 的 刷 写 会 生成 很 多 人 ”可 文 件 。 如 果 文 件 的 数目 
达到 靖 值 ， 合 并 (compaction) 过 程 将 把 它们 合并 成 数量 更 少 的 体积 
更 大 的 文件 。 这 个 过 程 持 续 到 这 些 文件 中 最 大 的 文件 超过 配置 的 最 大 
存储 文件 大 小 ， 此 时 会 触发 一 个 region 拆 分 。 


压缩 合并 有 两 种 ， 即 minor 和 major。minor 合 并 负责 重 写 最 后 生成 
的 几 个 文件 到 一 个 更 大 的 文件 中 。 文 件数 量 是 由 
hbase.hstore.compaction.min (之 前 被 称 做 hbase. 
hstore.compactionThreshold ， 尺 管 已 经 上 废弃 了 ,但 是 这 个 属性 
依然 可 用 ) 属性 设置 的 。 它 的 默认 值 为 3， 并 有 旦 最 小 值 需要 大 于 或 等 于 
2。 过 大 的 数字 将 会 延迟 minor 合 并 的 执行 ， 同 时 也 会 增加 执行 时 消耗 
的 资源 及 执行 的 时 间 。 


minor 合 并 可 以 处 理 的 最 大 文件 数量 默认 为 10， 用 户 可 以 通过 
hbase. hstore.compaction.max 来 配置 。 
hbase.hstore.compaction.min.size (默认 设置 为 region 的 
memstore 刷 写 大 小 ) #lhbase.hstore.compaction.max.size 

(默认 设置 为 Long ,MAX_VALUE ) 配置 项 属性 进一步 减少 了 需要 合并 

的 文件 列表 。 任 何 比 最 大 合并 大 小 大 的 文件 都 会 被 排除 在 外 。 最 小 合 
并 大 小 的 功能 稍 有 不 同 : 它 是 一 个 网 值 ， 而 不 是 每 个 文件 的 限制 。 它 
包括 所 有 小 于 限制 的 文件 ， 直 到 达到 每 次 压缩 允许 的 总 文件 数量 。 
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算法 使 用 hbase.hstore.compaction,ratio (默认 为 1.2， 
或 者 120%) 来 确保 在 选择 过 程 中 包括 足够 的 文件 。 经 过 跟 新 文件 总 的 
存储 文件 比较 之 后 ， 这 个 比例 仍 将 选择 达到 那个 值 的 文件 。 评 估 总 古 
按照 从 老 文 件 到 新 文件 的 顺序 来 进行 的 ， 这 样 可 以 确保 更 老 的 文件 首 
先 锌 合并 o 这些 属 性 的 组 合 允 许 用 户 微调 一 个 minor 合 并 包括 文件 的 数 


里 


HBase 支 持 的 男 外 一 种 合并 是 major 合 并 : 它们 把 所 有 文件 压缩 成 
一 个 单独 的 文件 。 在 执行 压缩 检查 时 ， 系 统 自动 决定 运行 哪 种 合并 。 
在 memstore 伞 刷 写 到 磁盘 后 会 触发 检查 ， 或 在 Shell 命 令 compact ` 
major_compact 之 后 触发 检查 ， 或 是 相应 API 在 被 调用 后 触发 检查 ， 抑 
或 是 被 一 个 异步 的 后 台 进 程 触发 后 。region 服 务 器 运行 这 个 线程 ， 而 其 
功能 由 CompactionChecker 类 实现 ， 它 以 一 个 固定 的 周期 触发 检 
查 ， 这 个 周期 由 hbase .server .thread.wakefrequency 参数 控 
fill ( 乘 以 hbase ,server .thread.wakefrequency.multiplier 


， 设 为 1000， 这 样 它 的 执行 频率 不 会 像 其 他 基于 线程 的 任务 那么 频 


ZAN 


除非 用 户 使 用 Shell 命 令 major_compact 或 者 使 用 
majorCompact() 这 个 API， 将 强制 运行 major 合 并 ， 否 则 服务 器 会 首 
完 检 查 上 次 运行 到 现在 是 否 达 到 hbase. 
hregion.majorcompaction ( 设 为 24 小 时 ) 指定 的 时 限 。 
hbase.hregion.majorcompaction.jitter ( 设 为 0.2， 即 


20%) 参数 会 将 所 有 存储 的 时 间 周 期 分 开 。 如 果 没 有 这 个 拌 动 ， 所 有 的 


存储 文件 都 将 在 每 24 小 时 的 同一 时 间 运 行 一 个 major 合 并 。 参 见 11.4.1 
斑 ， 用 户 可 了 解 以 上 方法 的 问题 以 及 如 何 更 好 地 进行 管理 。 

如 采 还 没有 达到 major 合 并 的 执行 周期 ， 系 统 会 选择 minor 合 并 执 
行 。 基 于 以 上 配置 属性 ， 服 务 器 将 检查 是 否 有 足够 的 文件 供 minor 合 并 
执行 ， 如 采 有 束 继 续 。 


当 minor 合 并 包括 所 有 的 存储 文件 ， 且 所 有 文件 均 未 达到 设置 的 每 
次 压缩 的 最 大 文件 数 时 ，minor 合 并 可 能 被 提升 成 major 合 并 。 


8.2.4 HFile 格式 


实际 的 存储 文件 功能 是 由 HFile 类 实现 的 ， 它 被 专门 创建 以 达到 
一 个 目的 : 有效 地 存储 HBase 的 数据 。 它 们 基于 Hadoop 的 TFile 类 © 
， 并 模仿 -Google 的 BigTable 架 构 使 用 的 SSTable 格 式 。 曾 在 HBase 中 使 
用 过 的 Hadoop 的 MapFile 类 被 证 明 性 能 不 够 好 。 图 8-5 显 示 了 文件 格 
式 的 详细 信息 。 


i J O 
Meta | Meta Data | Meta Trailer 
(Optional) (Optional) | _ Index | Index 


图 8-5 HFile 结构 


这 些 文件 是 可 变 长 度 的 ， 唯 一 固定 的 块 是 File Info 块 和 Trailer 块 。 
如 图 8-5 所 示 ，Trailer 有 指 癌 其 他 块 的 指针 。 它 是 在 持久 化 数据 到 文件 
结束 时 写 入 的 ， 写 入 后 即 确定 其 成 为 不 可 变 的 数据 存储 文件 。Index 块 
记录 Data 和 Meta 块 的 偏 移 量 。Data 和 Meta 块 实际 上 都 古 可 选 的 ， 但 是 孝 
HBase 如 何 使 用 数据 文件 ， 在 存储 文件 中 用 户 几 乎 总 能 找到 Data 


块 大 小 是 由 HColumnDescriptor 配置 的 ， 而 该 配置 可 以 在 创建 
表 时 由 用 户 指 定 或 者 使 用 比较 合理 的 默认 值 。 下 面 是 在 master 的 Web 界 
面 中 显示 的 例子 : 


{NAME => 'testtable',FAMILIES => [{NAME => 'colfam1', 
BLOOMFILTER => 'NONE',REPLICATION_SCOPE => '@',VERSIONS => '3', 


COMPRESSION \=> 'NONE', TTL => '2147483647',BLOCKSIZE => '65536', 
IN_MEMORY => 'false',BLOCKCACHE => 'true'}]} 


这 里 的 默认 值 是 64 KB (或 655 3562 77) 。 下 面 是 HFile 的 
JavaDoc 解 释 : 


“ 抉 大 小 的 最 小 值 。 对 于 一 般 的 应 用 ， 我 们 建议 将 最 
小 的 块 大 小 设置 为 8KB~1 MB。 如 果 应 用 主要 涉及 顺序 
访问 ， 较 大 的 块 大 小 将 更 加 合适 。 不 过 这 会 降低 随机 读 性 
能 〈 因 为 需要 解压 缩 更 多 的 数据 ) 。 较 小 的 块 更 有 利于 随 
机 数据 访问 ， 不 过 同时 也 需要 更 多 的 内 存 来 存储 块 索引 ， 
并 且 可 能 创建 过 程 也 会 变 得 更 慢 (因为 我 们 必须 在 每 个 数 
据 块 结束 的 时 候 刷 写 压缩 流 ， 这 会 导致 了 一 个 FS IO 刷 
写 ) 。 此 外 ， 由 于 压缩 解码 器 存在 内 部 缓存 ， 导 致 可 能 的 
最 小 的 块 大 小 是 20 KB~30 KB ° ” 


每 个 块 都 包含 一 个 magic 头 部 和 一 定数 量 的 序列 化 的 KeyValue 实 
例 〈 详 见 8.2.5T， 并 查看 它们 的 格式 ) 。 如 果 用 户 没 有 使 用 压缩 算 
法 ， 每 个 块 大 小 和 配置 的 块 大 小 差不多 。 但 这 并 不 是 什么 精密 科学 ， 
写 入 程序 必须 适应 用 户 写 入 的 数据 : 如 果 用 户 存储 了 一 个 比 块 大 小 更 
大 的 KeyValue 实例 ， 则 HBase 也 必须 接受 它 。 不 过 即使 是 较 小 的 值 ， 
对 于 块 大 小 的 检查 也 是 在 最 后 一 个 值 写 入 后 才 进行 的 ， 所 以 在 实际 情 
况 中 ， 大 部 分 块 会 稍 大 。 


当 使 用 压缩 算法 上 时， 用 户 对 于 块 大 小 的 控制 力 将 更 弱 。 压 缩 解码 
器 在 能 够 自己 控制 获取 的 数据 量 时 才能 达到 最 有 效 的 压缩 比率 。 例 
如 ， 把 块 大 小 设置 为 256KB， 并 使 用 LZO 压 缩 算 法 ， 系 统 将 写 更 小 的 
块 来 适应 LZO 的 内 部 缓冲 区 大 小 。 


很 多 压缩 库 有 一 系列 参数 ， 用 户 可 以 用 来 指定 缓冲 
区 大 小 和 其 他 更 具体 的 属性 。 请 参考 JNI 库 的 源 代码 来 查找 
可 用 的 选项 。 


HBase 不 知道 用 户 是 否 选择 了 一 个 压缩 算法 : 它 将 按照 块 大 小 的 限 
制 来 写 原 始 数据 ， 并 尽量 让 原始 数据 的 大 小 与 这 个 限制 接近 。 如 采用 
尸 启用 了 压缩 ， 则 保存 到 磁 副 上 的 数据 将 更 少 。 这 意味 着 最 终 的 存储 
0 但 是 由 于 每 一 个 块 都 更 小 ， 所 以 总 大 小 也 


在 HDFS 中 ， 文 件 的 默认 块 大 小 是 64 MB， 这 个 是 HFile 默认 块 大 
小 的 1024 倍 。 因 此 HBase 存 储 文件 的 块 与 Hadoop 的 块 之 间 没 有 匹配 关 
系 。 事 实 上， 这 两 种 块 类 型 之 间 根 本 没有 相关 性 。HBase 把 它 的 文件 透 
明 地 存储 到 文件 系统 中 ， 而 HDFS 也 使 用 块 来 切 分 文件 仅仅 是 一 个 巧 
合 ， 并 且 HDFS 不 知道 HBase 存 储 的 是 什么 ， 它 只 能 看 到 二 进 制 文件 。 
图 8-6 展 示 了 HFile 的 内 容 怎样 在 整个 HDFS 块 中 进行 分 布 。 


Block 1: 128MB Block 2: 104MB 


图 8-6 ”很 多 更 小 的 HFile 块 透明 地 存储 在 两 个 更 大 的 HDFS 块 中 


AIR, HAA 2 Sit HBase}t Bei H]—“SHFile ， 例 如 ， 
OE CIERRE, KAREENA ° HFile.main() 方法 提供 了 
这 样 的 工具 : 


$ ./bin/hbase org.apache.hadoop.hbase.io.hfile.HFile 


usage: HFile [-a] [-b] [-e] [-f < arg>] [-k] [-m] [-p] [-r < arg>] 
[-v] 

-a, --checkfamily Enable family check 

-b,--printblocks Print block index meta data 

-e, --printkey Print keys 

-f,--file < arg> File to scan. Pass full-path;e.g. 

hdfs://a:9000/hbase/.META./12/34 

-k, --checkrow Enable row order check;looks for out-of- 
order keys 

-m,--printmeta Print meta data of file 

-p, --printkv Print key/value pairs 

-r,--region < arg> Region to scan. Pass region name;e.g. 

' META.,,1' 

-V, - -verbose Verbose output;emits file and meta data 
delimiters 


上 面 的 例子 展示 了 输出 的 形式 (精简 过 ) 


$ ./bin/hbase org.apache.hadoop.hbase.io.hfile.HFile -f \ 


/hbase/testtable/de27e14ffcif3fff65ce424fcfi4ae42/colfam1/251846945 
9313898451 \ 


-v -m -p 


Scanning -> 

/hbase/testtable/de27e14ffc1ıf3fff65ce424fcf14ae42/colfam1/251846945 
9313898451 

: row-550/colfam1:50/1309813948188/Put/vlen=2 V: 50 
row-550/colfam1:50/1309812287166/Put/vlen=2 V: 50 
row-551/colfam1:51/1309813948222/Put/vlen=2 V: 51 
row-551/colfam1:51/1309812287200/Put/vlen=2 V: 51 
row-552/colfam1:52/1309813948256/Put/vlen=2 V: 52 


入 入 入 入 入 


row-698/colfam1 : 98/1309813953680/Put/vlen=2 V: 98 
row-698/colfam1 : 98/1309812292594/Put/vlen=2 V: 98 
row-699/colfam1 : 99/1309813953720/Put/vlen=2 V: 99 

: row-699/colfam1 :99/1309812292635/Put/vlen=2 V: 99 

Scanned kv count -> 300 

Block index size as per heapsize: 208 
reader=/hbase/testtable/de27e14ffcilf3fff65ce424Ffcfi4ae42/colfami/ \ 
2518469459313898451, compression=none, inMemory=false, \ 
firstKey=row-550/colfam1:50/1309813948188/Put, \ 

lastKey=row- 

699/colfam1 : 99/1309812292635/Put, avgKeyLen=28, avgValueLen=2, \ 
entries=300, length=11773 

fileinfooffset=11408, dataIndexOffset=11664, dataIndexCount=1, \ 
metaIndexOffset=0, metaIndexCount=0, totalBytes=11408, entryCount=300, 
\ 

version=1 

Fileinfo: 

MAJOR_COMPACTION_KEY = \xFF 

MAX_SEQ_ID_KEY = 2020 

TIMERANGE = 1309812287166... .1309813953720 

hfile.AVG_KEY_LEN = 28 

hfile.AVG_VALUE_LEN = 2 

hfile.COMPARATOR = org.apache.hadoop.hbase.kKeyValue$KeyComparator 
hfile.LASTKEY = \x00\x07row- 
699\x07colfam199\xO00\x00\xO10\xF6\XxXE5|\x1B\ x04 

Could not get bloom data from meta block 


入 入 入 入 


输出 的 第 一 部 分 是 序列 化 的 KeyValue 实例 所 存储 的 真实 数据 。 
第 二 部 分 转 存 内 部 的 HFile .Reader 属性 和 trailer 块 的 详细 信息 。 最 后 
一 个 部 分 以 Fileinfo FÆ, Æfile info 块 的 值 。 


这 里 提供 的 信息 是 有 价值 的 ， 例 如 ， 用 来 确认 一 个 文件 是 否 被 压 


缩 过 以 及 所 使 用 的 压缩 类 型 。 它 也 会 亚 示 已 经 存储 了 多 少 个 单元 ， 它 
们 的 键 和 值 的 平均 大 小 。 在 这 个 例子 中 ， 上 面 创建 的 键 比 值 大 得 多 。 
这 是 因为 KeyValue 类 需要 存储 许多 相关 数据 ， 下 面 再 进一步 解释 。 


8.2.5 KeyValue 格式 


本 质 上 ，HFile 中 的 每 个 KeyValue 都 是 一 个 低级 的 字 节 数组 ， 
它 允 许 零 复 制 访问 数据 。 图 8-7 显 示 了 所 包含 数据 的 布局 。 


Key 
Key | Value | Row Column Column Column Time | Key si 
Row Family | Qualifier | Stamp | Type Value 
图 8-7 KeyValue 格式 


该 结构 以 两 个 分 别 表示 键 长 度 (Key Lengh) 和 值 长 度 (Value 
Lengh) 的 定 长 数字 开始 。 有 了 这 个 信息 ， 用 户 就 可 以 在 数据 中 跳跃 ， 
例如 ， 可 以 忽略 键 直 接 访 问 值 。 其 他 情况 下 ， 用 户 也 可 以 从 键 中 获取 
必要 的 信息 。 一 旦 其 被 转换 成 一 个 KeyValue 的 Java 实 例 ， 用 户 就 能 通 
过 对 应 的 getter 方 法 得 到 更 多 的 细 市 信息 ， 在 3.2.1 节 的 “KeyValue 
类 ”部 分 有 详细 介绍 。 


上 面 的 例子 中 ， 平 均 链 比 平均 值 大 的 原因 可 以 归结 为 键 中 包 作 的 
数据 项 : 它 包含 了 指定 单元 的 全 维度 内 容 。 键 包含 了 行 键 、 列 族 名 和 
列 限定 符 等 。 相 对 于 一 个 较 小 的 有 效 负 载 ， 这 将 导致 相当 巨大 的 开 
销 。 如 采用 户 处 理 的 值 较 小 ， 那 么 应 当 保持 键 尽 量 小 。 选 择 一 个 短 的 
行 和 列 键 〈 列 族 名 是 一 个 单字 世 ， 同 时 列 限 定 符 也 一 样 短 ) 来 保证 键 
值 比 率 合 适 。 


男 一 方面 ， 上 压强 有 助 于 绥 解 这 一 问 题 ， 因 为 它 看 上 腿 于 有 限 的 数据 
窗口 ， 并 且 其 中 所 有 重复 的 数据 都 能 够 被 有 效 地 压缩 。 存 储 文件 中 所 
有 的 KeyValue 都 被 有 序 地 存储 ， 这 样 有 助 于 把 类 似 的 键 (如 果 用 户 
使 用 了 版 本 ， 那 么 相似 的 值 也 会 这 样 ， 放 在 一 起 。 


8.3 WAL 


region 服 务 紫 会 将 数据 保存 到 内 存 中 ， 直 到 积 搬 足够 多 的 数据 再 将 
其 刷 写 到 硬盘 上 ， 这 样 可 以 避免 创建 很 多 小 文件 。 存 储 在 内 存 中 的 数 
据 十 不 稳定 的 ， 例 如 ， 在 服务 右 断 电 的 情况 下 数据 就 可 能 会 丢失 。 这 
是 一 个 典型 的 问题 ， 已 经 在 8.1 节 中 进行 了 解释 。 


一 个 比较 常见 的 解决 这 个 问题 的 方法 是 预 写 日 志 (WAL) ©: 每 
次 更 新 〈 也 叫做 “编辑 ?) 都 会 写 入 日 志 ， 只 有 写 入 成 功 才 会 通知 客户 
T a a 


8.3.1 Bit 


当 灾难 发 生 的 时 候 ，WAL 就 是 所 需 的 生命 线 。 类 似 于 MySQL 的 
binary log，WAL 存 储 了 对 数据 的 所 有 更 改 。 这 在 主 存储 器 出 现 意外 的 
情况 下 非常 重要。 如果 服务 如 月 并， 它 可 以 有 效 地 回放 日 志 ， 使 得 服 
务 器 恢复 到 服务 器 朋 溃 以 前 。 这 也 就 意味 着 如 采 将 记录 写 入 到 WAL 失 
败 时 ， 整 个 操作 也 会 被 认为 是 失败 的 。 


8.2.1 节 展示 了 WAL 是 怎样 和 HBase 的 架构 结合 在 一 起 的 。 因 为 它 被 
同一 个 region 服 务 器 的 所 有 region 共 享 ， 所 以 对 于 每 一 次 修改 它 就 像 一 
个 日 志 中 心 一 样 。 图 8-8 展 示 了 编辑 流 是 怎样 在 memstore 和 和 WAL 之 间 分 
流 的 。 
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图 8-8 所 有 的 修改 都 先 保存 到 WAL ， 再 传递 给 memstore 


处 理 过 程 如 下 : 首先 客户 端 局 动 一 个 操作 来 修改 数据 。 例 如 ， 可 
以 对 put() »delete() 和 increment() 进行 调用 。 每 一 个 修改 都 
封装 到 一 个 KeyValue 对 象 实例 中 ， 并 通过 RPC 调 用 发 送出 去 。 这 些 
调用 (理想 情况 下 ) 成 批 地 发 送 给 含有 匹配 region 的 HRegionServer 


一 旦 KeyValue 实例 到 达 ， 它 们 会 被 发 送 到 管理 相应 行 的 
HRegion 实例 。 数 据 被 写 入 到 WAL， 然 后 被 放 入 到 实际 拥有 记录 的 存 
储 文件 的 MemStore 中 。 实 质 上 ， 这 就 是 HBase 大 体 的 写 路 径 。 


最 后 ， 当 memstore 达 到 一 定 的 大 小 或 是 经 历 一 个 特定 的 时 间 之 
后 ， 数 据 丈 会 异步 地 连续 写 入 到 文件 系统 中 。 在 写 入 的 过 程 中 ， 数 据 
以 一 种 不 稳定 的 状态 存放 在 内 存 中 ， 即 使 在 服务 右 完 全 朋 江 的 情况 
下 ，WAL 也 能 够 保证 数据 不 会 丢失 ， 因 为 实际 的 日 志 存 储 在 HDFS 上 。 
其 他 服务 右 可 以 打开 日 志文 件 然 后 回放 这 些 修 改 一 一 恢复 操作 并 不 在 
这 些 朋 并 的 物理 服务 右上 进行 。 


8.3.2 HLog 类 


实现 了 WAL 的 类 叫做 HLog 。 当 HRegion 被 实例 化 时 ，HLog 实 
例会 被 当做 一 个 参数 传 入 到 HRegion 的 构造 器 中 。 当 一 个 region 接 收 
ere 它 可 以 直接 将 数据 保存 到 一 个 共享 的 WAL 实 例 中 


HLog 类 的 核心 功能 是 append( ) 方法 。 注 意 ， 为 了 提高 性 能 ， 在 
Put 、Delete 和 Increment 中 可 以 使 用 一 个 额外 的 参数 集合 : 
setwriteTowWAL(false)。 如 采用 户 在 设置 时 调用 这 个 方法 ， 例 
如 ， 用 户 在 设置 一 个 Put 实例 时 调用 该 方法 会 导致 向 WAL 写 入 数据 的 
过 程 停止 。 这 也 是 为 什么 图 8-8 中 使 用 虚线 创建 的 向 下 的 箭头 来 表示 可 
选 步骤 。 默 认 情 况 下 ， 用 户 最 好 使 用 WAL。 但 是 ， 如 果 用 户 在 运行 一 
个 离线 的 大 批量 导入 数据 的 MapReduce 作 业 时 ， 其 可 以 获得 额外 的 性 
能 ， 但 是 需要 特别 注意 是 否 有 数据 在 导入 的 时 候 丢 失 。 


| 

S 强烈 建议 用 户 不 要 毫 无 顾忌 地 关闭 WAL 。 如 果 这 样 
做 了 ， 数 据 迟 早 会 丢失 并 且 HBase 不 能 恢复 丢失 的 且 未 写 入 
到 日 志 中 的 数据 。 


HLog 的 另 一 个 特性 是 追踪 修改 ， 这 个 特性 可 以 通过 使 用 序列 号 来 
实现 。 它 在 内 部 使 用 一 个 进程 安全 的 AtomicLong ， 且 从 0 开始 或 从 保 
存在 文件 系统 中 的 最 后 一 个 所 知 的 数字 开始 : 当 region 打 开 它 的 存储 文 
件 时 ， 它 读 取 存储 在 每 一 个 HFile 中 meta 域 中 最 大 的 序列 号 ， 并 且 如 


果 这 个 序列 号 大 于 之 前 记录 的 序列 号 ， 它 就 会 把 HLog 的 序列 号 设 定 为 
这 个 值 。 所 以 在 打开 所 有 存储 文件 的 结尾 后 ，HLog 束 会 被 初始 化 以 反 
映 存 储 在 哪里 结束 以 及 从 哪里 继续 存储 。 


图 8-9 展 示 了 3 个 不 同 的 region， 它 们 存储 在 同一 个 region IRA as 
上 ， 并 且 每 一 个 都 包含 不 同 的 行 键 范 围 。 每 一 个 region 都 共享 同一 个 
HLog 实例 。 这 意味 着 数据 按照 到 达 的 顺序 写 入 到 WAL 中 ， 当 日 志 需 要 
回放 (查看 8.3.7 节 ) 时 会 产生 额外 工作 。 但 是 由 于 这 很 少 发 生 ， 所 以 


最 优 的 做 法 就 是 按 顺 序 存 储 ， 这 样 能 够 提供 最 好 的 IO 性 能 。 


WAL Eat] WAL Ei] WALEdit 


图 8-9 ”WAL 按 照 修改 的 时 间 顺 序 存储 ， 包 括 在 同一 个 服务 器 上 的 所 有 region 
8.3.3 HLogKey 类 


WAL 当 前 使 用 的 是 Hadoop 的 SequenceFile ， 这 种 文件 格式 按照 
键 / 值 集合 的 方式 存储 记录 。 对 WAL 来 说 ， 值 仅仅 是 客户 端 发 送 的 修改 
请 求 。Key 被 HLogKey 实例 代表 : 由 于 KeyValue 仅仅 代表 行 键 、 列 
族 、 列 限定 词 、 时 间 戳 、 类 型 以 及 值 ， 所 以 要 有 一 个 地 方 来 存储 
KeyValue 的 归属 ， 即 region 和 表 名 ， 这 个 信息 存储 在 HLogKey 中 。 
HLogKey 还 存储 了 上 面 所 提 到 的 序列 号 。 每 一 条 记录 的 数字 是 递增 
的 ， 以 保持 一 个 连续 的 编辑 序列 。 


它 还 记录 了 写 入 时 间 ， 这 是 一 个 表示 修改 是 什么 时 候 被 写 入 到 日 
志 的 时 间 戳 。 最 后 ， 这 个 类 存储 了 多 个 集群 之 间 进 行 复制 所 需要 的 集 
群 ID (clusterID) 。 


8.3.4 WALEdit 类 


PF vin AC IEA BE “ME ED ET Se Bl — “SWALEdit 实例 。 它 通 
过 日 志 级 别 来 管理 原子 性 。 假 设 更 新 了 一 行 中 的 10 列 ， 每 一 列 或 每 一 
个 单元 格 都 是 一 个 单独 的 KeyValue 实例 。 如 果 服 务 器 将 它们 中 的 5 个 
写 入 到 WAL 后 就 失败 了 ， 用 户 丈 会 得 到 一 半 修 改 内 容 被 持久 化 了 的 
ae 

这 可 以 通过 将 包含 多 个 单元 格 的 ， 且 所 有 被 认为 是 原子 的 更 新 都 


写 入 到 一 个 WALEdit 实例 中 来 解决 。 这 一 组 的 修改 都 会 在 一 次 操作 中 
被 写 入 ， 以 保证 日 志 的 一 致 性 。 


Wa, 
BAX 
ae 
wW a 


一 人 HBase 在 0.90.x 之 前 的 版 本 中 单独 保存 KeyValue 
实例 。 


8.3.5 LogSyncer 类 


表 的 摘 述 符 允 许 用 户 设置 一 个 叫做 延迟 日 志 刷 写 (deferred log 
flush) 的 标志 ， 这 个 标志 已 经 在 5.1.2 节 中 进行 了 解释 。 这 个 值 默认 为 
false ， 这 意味 着 每 一 次 编辑 被 发 送 到 服务 器 时 ， 它 都 会 调用 写 日 志 
的 Sync( ) 方法 。 这 个 调用 强迫 写 入 日 志 的 更 痢 都 会 被 文件 系统 确认 ， 
所 以 用 户 获 得 了 持久 性 保证 。 


不 幸 的 是 ， 调 用 这 个 方法 会 涉及 一 对 N 的 服务 句 管 道 写 (其 中 NN 是 
WAL 文 件 的 复制 因子 ) 。 由 于 这 是 一 个 高 代价 的 操作 ， 所 以 可 以 选择 
稍微 延迟 这 个 调用 ， 并 让 它 在 后 人 台 执 行 。 记 住 ， 如 果 不 调用 sync( ) 方 
法 ， 那 么 在 服务 器 出 现 故障 的 时 候 ， 将 有 一 定 几率 造成 数据 丢失 。 请 
小 心 使 用 这 个 设置 。 


管道 与 多 路 写 的 对 比 


当前 sync0 的 实现 是 管道 写 ， 这 意味 着 当 修改 被 写 入 
时 ， 它 会 被 发 送 到 第 一 个 Data Node 进 行 存储 。 一 旦 成 功 ， 
第 一 个 DataNode 束 会 把 修改 发 送 到 男 一 个 Data Node 来 进行 
相同 的 工作 。 只 有 3 个 DataNode 都 已 经 确认 了 写 操 作 ， 客 
户 端 才 被 允许 继续 进行 。 


男 一 种 存储 修改 的 方法 是 多 路 写 ， 也 束 古 写 入 被 同时 
发 送 到 3 台 主 机 上 。 当 所 有 主机 确认 了 写 操 作 之 后 ， 客 户 
端 才 可 以 继续 。 


这 两 种 方法 的 区 别 是 管道 写 需 要 时 间 去 完成 ， 所 以 它 
有 很 高 的 延迟 ， 但 是 它 能 更 好 地 利用 网 络 带宽 。 多 路 写 有 
着 比较 低 的 延迟 ， 因 为 客户 端 只 需要 等 待 最 慢 的 DataNode 
确认 (假设 其 余 已 经 成 功 确 认 ) 。 但 是 写 入 需要 共享 发 送 
服务 器 的 网 络 带宽 ， 这 对 于 有 着 很 高 负载 的 系统 来 说 会 是 
= 


目前 有 正在 进行 的 工作 能 让 HDFS 支 持 上 面 两 种 方 
式 ， 这 能 让 你 选择 一 种 方式 来 达到 最 佳 性 能 。 


用 户 将 deferred log flush 标 志 位 设置 为 true 会 导致 修改 被 缓存 在 
region 服 务 器 中 ， 然 后 在 服务 器 上 LogSyncer 类 会 作为 一 个 线程 运 
行 ， 负 责 在 非常 短 的 时 间 间 隔 内 调用 sync( ) 方法 。 默 认 的 时 间 间 隔 为 
1 秒 ， 可 以 通过 
hbase. regionserver .optionallogflushinterval ` ”属性 来 
设置 。 


注意 这 只 作用 于 用 户 表 : 所 有 的 目录 表 会 一 直 保持 同步 。 


8.3.6 LogRoller 类 


日 志 的 写 入 是 有 大 小 限制 的 。LogRoller 类 会 作为 一 个 后 台 线 程 
运行 ， 并 且 在 特定 的 时 间 间 隔 内 滚动 日 志 。 这 可 以 通过 
hbase .regionserver .logroll.period 属性 来 控制 ， 默 认 值 是 1 
小 时 。 


每 60 分 钟 旧 的 日 志文 件 补 天 闭 ， 然 后 开始 使 用 新 的 日 志文 件 。 经 
过 一 段 时 间 ， 系 统 会 积攒 一 系列 数量 不 断 递增 的 日 志文 件 ， 这 些 文 件 
也 需要 维护 。LogRoller 会 调用 HLog ,rollwriter() 方法 来 做 上 
面 所 说 的 滚动 当前 日 志文 件 的 工作 ， 接 着 HLog .rollwriter() 会 调 
FAHLog.cleanOldLogs() ° 


HLog.cleanOldLogs() 会 检查 写 入 到 存储 文件 中 的 最 大 序列 号 
是 多 少 ， 这 是 因为 到 这 个 序列 号 为 止 (小 于 或 等 于 这 个 序列 号 ) 的 所 
有 修改 都 已 经 被 保存 了 。 然 后 它 会 检查 是 不 是 有 日 志文 件 的 序列 号 都 
小 于 这 个 数字 。 如 果 是 的 话 ， 它 就 会 将 这 些 文件 移动 到 .oldlogs 文件 夹 
中 ， 留 下 其 余 的 日 志 。 


wa, 
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8 EFESE BOC LL TERA 。 


2011-06-15 01:45:48,427 INFO org.apache.hadoop.hbase.region 
server.HLog: \ 
Too many hlogs: logs=130,maxlogs=96;forcing flush of 8 region(s): 


testtable, row-500, 1309872211320 .d5a127167c6e2dc5106f066c c8 
4506f8.,... 


这 些 信 息 被 打印 出 来 是 因为 需要 保留 的 日 志文 件数 超过 
了 设置 的 最 大 日 志文 件数 ， 但 是 仍 有 一 些 数 据 更 新 没有 被 保 
人 存 。 造 成 这 种 情况 的 原因 之 一 征文 件 系统 负载 较 大 以 至 于 它 


不 能 以 新 数据 被 添加 进来 的 速率 来 存储 数据 ， 否 则 memstore 
的 刷 写 不 会 受 此 影响 。 


注意 ， 当 这 条 信息 被 打印 的 时 候 ， 服 务 器 会 进入 到 一 个 
特殊 的 模式 来 强制 刷 写 内 容 中 的 更 新 数据 ， 以 减少 需要 保存 


的 日 志 量 。 


其 他 控制 日 志 滚 动 的 参数 有 
hbase.regionserver.hlog.blocksize (设置 为 文件 系统 默认 
的 块 大 小 或 fs .local.,block.size ， 默 认 值 是 32MB) 和 
hbase.region server.logroll.multiplier ( 设 为 0.95) ， 这 
个 参数 表示 当日 志 达 到 块 大 小 的 95% 时 就 会 滚动 日 志 。 所 以 ， 不 管 日 志 
文件 被 认为 已 经 满 了 ， 还 是 经 过 一 定 的 时 间 文 件 达到 了 预 设 的 大 小 ， 

日 志文 件 束 会 被 深 动 。 
8.3.7 ”回放 

master 和 region 服务 器 需要 配合 起 来 精确 地 处 理 日 志文 件 ， 特 别 是 
需要 从 服务 器 失效 中 恢复 的 时 候 。WAL 用 来 保持 数据 更 新 的 安全 ， 而 
回放 则 是 一 个 使 得 系统 恢复 到 一 致 性 状态 的 更 加 复杂 的 过 程 。 

1. 单 日 志 
因为 所 有 的 数据 更 新 都 会 被 写 入 到 region 服 务 絮 中 的 一 个 基于 


HLog 的 日 志文 件 中 去 ， 为 什么 不 分 开 将 每 个 region 的 所 有 数据 更 改 都 
写 入 到 一 个 单独 的 日 志文 件 中 去 呢 ? 下 面 是 引 自 BigTable 论 文 的 相关 内 
容 : 


如 和 我 们 将 不 同 才 的 日 志 提 区 到 不 同日 志文 件 中 去 的 
话 ， 就 需要 癌 GFS 并 发 地 写 入 大 量 文 件 。 以 上 操作 依赖 于 


#-SGFSIRS a8 CIARA REA STNA 
量 的 硬盘 寻 道 来 向 不 同 的 物理 日 志文 件 中 写 入 数据 。 


由 于 相同 的 原因 ，HBase 也 遵循 这 个 原则 : 同时 写 入 太 多 的 文件 ， 
且 需 要 保留 滚动 的 日 志 会 影响 系统 的 扩展 性 。 这 种 设计 最 终 是 由 底层 
文件 系统 决定 的 。 虽 然 在 HBase 中 可 以 替换 底层 文件 系统 ， 但 是 通常 情 
况 下 安装 还 是 会 选用 HDFS。 


通 单 情况 下 ， 以 上 设计 不 会 造成 什么 问题 ， 但 当 系 统 遇 到 一 些 镑 
误 时 ， 以 上 设计 可 能 将 带 来 一 些 厅 烦 。 如 采用 户 的 数据 被 及 时 地 、 安 
全 地 持久 化 了 ， 那 么 所 有 事情 束 非 常 正 肖 。 但 是 只 要 过 到 服务 郁 朋 
泪 ， 系 统 就 需要 拆 分 日 志 ， 即 把 日 志 分 成 合适 的 矿 ， 这 些 在 下 一 他 有 
相应 的 撒 述 。 现 在 的 问题 是 ， 所 有 的 数据 更 改 的 日 志 都 宴 在 一 个 日 记 
文件 中 ， 并 且 没 有 任何 索引 。 正 是 由 于 这 个 原因 ，master 不 可 能 立即 把 
一 个 月 湿 的 服务 器 上 的 region 部 署 到 其 他 服务 器 上 ， 它 需要 等 每 对 应 
region 的 日 志 被 拆 分 出 来 。 如 果 服 务 右 朋 浇 之 前 已 经 来 不 及 将 数据 更 新 
刷 写 到 文件 系统 ， 对 应 的 需要 拆 分 的 WAL 数 量 也 将 非常 庞大 。 


2. 日 志 拆 分 


有 两 种 日 志文 件 需要 被 回放 的 情况 ， 集群 启动 时 或 服务 失效 时 。 
当 master 司 动 的 时 候 一 这 也 包括 备用 的 master 接 管 系统 的 时 候 一 一 人 它 
会 检查 文件 系统 中 HBase 根 目 孙 .logs 文件 夹 下 是 不 是 有 日 志文 件 ， 以 及 
这 些 日 志 有 没有 分 配 的 region 服 务 絮 。 日 志 的 名 字 不 仪 包含 服 务 器 的 名 
字 ， 还 包含 服务 器 的 启动 码 (start code) 。 这 个 数字 会 在 每 次 region 
服务 絮 重 启 的 时 候 重 置 。master 可 以 通过 这 个 数字 来 检查 日 志 是 否 被 遗 


master 还 需要 人 负责 监控 服务 器 如 何 使 用 ZooKeeper。 当 master 检 测 到 
一 个 服务 器 失效 时 ， 它 就 会 在 重新 分 配 region 到 新 的 服务 器 前 立即 启动 
一 个 进程 来 恢复 日 志文 件 。 这 项 工作 是 由 ServerShutdownHandler 
类 完成 的 。 


在 日 志 中 的 数据 改动 被 回放 之 前 ， 日 志 需 要 被 单独 放 在 每 个 region 
对 应 的 单独 的 日 志文 件 中 。 这 个 过 程 叫做 日 志 拆 分 (log splitling) : 


读 取 混 在 一 起 的 上 日志， 并 且 所 有 的 条 目 都 按照 它 所 归属 的 region 来 分 
组 。 这 些 分 组 的 修改 记录 被 存放 在 一 个 紧 挨 着 目标 region 的 文件 中 以 供 
接 下 来 的 数据 恢复 过 程 使 用 。 


日 志 拆 分 的 实质 操作 过 程 几乎 在 每 一 个 HBase 版 本 中 都 不 太一 样 : 
早期 版 本 会 直接 在 master 上 通过 一 个 线程 来 读 取 文件 。 这 个 后 来 又 提升 
为 至 少 不 同 region 对 应 的 修改 是 通过 多 线程 的 方式 来 重新 执行 。 在 
0.92.0 版 本 中 ， 终 于 引入 了 分 布 式 日 志 拆 分 (distributed log splitting) 
的 概念 ， 切 分 日 志 的 实际 工作 从 master 转 移 到 了 region 服 务 器 上 。 


现在 我 们 考 虚 一 个 更 大 的 region 服 务 器 集群 ， 该 集群 有 很 多 的 
region 服 务 器 和 很 大 的 日 志文 件 ， 过 去 master 只 能 分 别 串 行 地 恢复 每 个 
日 志文 件 ， 这 样 它 才 不 会 在 VO 和 内 存 使 用 方面 过 载 。 这 就 意味 着 ， 
一 个 拥有 被 挂 起 的 数据 更 改 的 region 都 会 被 阻塞 ， 直 到 日 志 拆 分 以 及 恢 
复 完 成 之 后 才能 被 打开 。 

最 新 的 分 布 式 模 式 使 用 ZooKeeper 来 将 每 一 个 被 丢弃 的 日 志文 件 分 
发 给 一 个 region 服 务 器 。 它 们 通过 监测 ZooKeeper 来 发 现 需 要 执行 的 工 
作 ， 一 旦 master 指 出 某 个 日 志 是 可 以 被 处 理 的 ， 那 么 它们 会 竞争 这 个 任 
务 。 获 胜 的 region 服 务 器 就 会 在 一 个 线程 (为 了 不 使 已 经 负载 很 重 的 
region 服务 器 过 载 ) 中 读 取 并 且 拆 分 这 个 日 志文 件 。 


as. k 
= p 可 以 通过 
hbase.master.distributed.log.splitting 设置 属 
性 来 天 闭 新 的 分 布 式 日 志 拆 分 。 设 置 该 项 为 false 可 以 停 用 
分 布 式 拆 分 ， 则 系统 只 能 直接 通过 master 来 进行 这 项 工作 。 


在 非 分 布 式 模式 下 写 入 是 多 线程 的 ， 这 是 通过 
hbase.regionserver.hlog. 
splitlog.writer.threads 属性 来 控制 的 ， 其 默认 值 为 


3。 由 于 增加 这 个 值 后 ， 读 取 日 志 的 性 能 很 可 能 会 受 限 于 单 
一 的 日 志 读 者 ， 所 以 用 户 需要 权衡 。 


拆 分 过 程 会 首先 将 数据 改动 写 入 到 HBase 根 目录 下 的 splitlog A 
文件 夹 。 它 们 已 经 被 放置 在 与 所 需 的 目标 region 相 同 的 路 径 下 。 例 如 : 


© /hbase/.corrupt 
0 
/hbase/splitlog/foo.internal, 60020, 1309851880898 _hdfs%3A%2F%2F \ 


localhost%2Fhbase%2F. logs%2Ffoo. internal%2C60020%2C1309850971208%2F 
\ 
foo. internal%252C60020%252C1309850971208 .1309851641956/testtable/ \ 
d9ffc3a5cd016ae58e23d7a6cb937949/recovered. edits/000000000000000235 
2 


为 了 与 其 他 日 志 区 分 开 能 够 执行 并 发 操作 ， 路 径 中 包含 了 日 志文 
件 名 。 路 径 中 还 包含 了 表 名 、region 名 (AMIE) FI recovered.edits X 
件 夹 。 最 后 ， 拆 分 文件 的 名 称 是 对 应 region 的 日 志 中 第 一 次 数据 更 改 所 
对 应 的 序列 ID 。 


corrupt 文件 夹 包含 所 有 不 能 被 解析 的 日 志文 件 。 这 种 情况 可 以 通 
过 hbase,hlog，split,skip,errors 属性 来 改变 ， 通 常 将 其 默认 
设置 为 true 。 这 表示 任何 不 可 以 从 文件 中 读 出 来 的 数据 更 改 都 会 使 整 
个 日 志文 件 被 移动 到 .corrupt 文件 夹 中 。 如 果 将 这 一 标志 设置 为 false 
， 则 会 抛 出 IOExecption 异常 ， 并 且 整 个 日 志 拆 分 过 程 都 会 被 停止 。 


一 旦 日 志文 件 被 成 功 拆 分 ， 则 每 个 region 对 应 的 文件 就 会 被 移动 到 
实际 的 region 目 录 。 然 后 region 就 可 以 使 用 对 应 的 日 志 来 恢复 数据 了 。 
R 开 region， 因 为 它 需要 首先 提供 挂 起 的 
BAR EII 。 


3. 数据 恢复 
当 集 群 启 动 ， 或 region 从 一 个 region 服 务 絮 移动 到 男 一 个 region 服 务 


器 时 ，region 都 会 被 打开 ， 且 此 时 region 会 首先 检查 recovered.edits 目录 
是 否 存 在 。 如 果 该 目录 存在 ， 它 就 会 打开 该 目录 中 的 文件 ， 并 开始 读 


取 文 件 所 包含 的 数据 更 改 记录 。 由 于 文件 是 按照 含 序列 ID 的 文件 名 排 
序 的 ，region 便 可 以 按照 序列 ID 的 顺序 来 恢复 数据 。 


任何 序列 ID 小 于 或 者 等 于 保存 在 硬盘 中 存储 文件 序列 ID 的 更 改 记 
录 都 会 被 忽略 ， 因 为 这 些 记 录 之 前 的 数据 已 经 被 刷 写 了 。 其 他 数据 更 
新 都 会 被 添加 到 对 心 region 的 memstore 中 来 恢复 之 前 的 数据 状态 。 最 
后 ， 一 次 强制 的 memstore 刷 写 会 将 当前 数据 写 入 到 硬盘 中 。 


一 旦 recovered.edits 文件 夹 中 的 文件 都 被 处 理 完 ， 且 其 中 的 数据 更 
改 也 都 被 写 入 到 硬盘 后 ， 该 文件 夹 束 会 被 删除 。 当 出 现 文 件 不 可 读 的 
情况 时 ，hbase .skip .errors 属性 决定 了 接 下 来 系统 的 行为 : 该 属 
性 为 默认 值 false 时 ， 整 个 region 恢 复 过 程 失败 ， 该 属性 为 true 时 ， 
对 应 文件 束 会 被 重 命名 为 原始 文件 名 加 上 .<currentTimeMillis> 
。 不管 哪 种 情况 ， 用 户 都 需要 小 心地 检查 日 志文 件 来 判断 为 什么 恢复 
会 遇 到 问题 ， 然 后 修复 问题 来 让 恢复 过 程 继续 执行 。 


8.3.8 FATE 


用 户 都 想 依靠 系统 来 保存 自己 写 入 的 所 有 数据 ， 不 论 系统 在 内 部 
使 用 了 什么 新 奇 的 算法 。 在 HBase 系 统 中 ， 用 户 可 以 尽量 降低 日 志 的 刷 
写 次 数 ， 也 可 以 在 每 次 数据 更 改 时 都 同步 日 志 。 不 管 怎 样 做 ， 用 户 都 
需要 依赖 上 文 提 到 的 文件 系统 来 做 最 后 的 持久 化 工作 。 用 来 存储 数据 
的 输出 流 已 经 被 刷 写 了 ， 但 古 对 应 的 数据 是 否 已 经 写 入 到 便 盘 中 了 
呢 ? 我 们 在 谈论 的 古 fsync 相 关 的 问题 。 对 HBase 来 说 ， 大 多 数 情况 下 还 
是 会 选用 Hadoop 的 HDFS 作 为 存储 数据 的 文件 系统 。 


到 现在 为 止 ， 大 家 应 当 已 经 清楚 日 志 是 用 来 保证 数据 安全 的 。 正 
是 由 于 这 个 原因 ， 日 志 有 可 能 保持 打开 状态 一 小 时 (或 者 更 多 ， 如 采 
用 户 配置 过 的 话 ) 。 随 着 数据 被 不 断 写 入 ， 新 的 键 / 值 对 被 写 入 到 
SequenceFile 中 ， 同 时 也 间断 地 刷 写 到 硬盘 中 。 


但 是 ， 这 种 使 用 文件 的 方式 并 不 是 Hadoop 设 计 的 使 用 模式 通 音 情 
况 下 ，Hadoop 会 提供 一 套 API 并 通过 它 向 文件 中 写 入 数据 〈 最 好 是 大 量 
的 数据 ) ， 此 后 立即 关闭 这 个 文件 ， 并 使 之 成 为 一 个 不 可 更 改 的 文 
件 ， 随 后 大 家 都 可 以 多 次 读 取 这 个 文件 。 


同时 文件 只 有 在 被 关闭 之 后 才 对 其 他 人 可 见 和 可 读 。 如 条 在 写 入 
数据 的 过 程 中 进程 朋 浇 了， 那么 这 个 文件 很 大 可 能 性 会 被 认为 丢失 


了 。 但 对 日 志文 件 来 说 ， 能 够 读 到 上 一 次 服务 套 朋 涡 时 写 操作 的 位 
ares 这 种 属 性 被 添加 到 了 新 版 本 的 HDFS 中 ， iB AS PK AIE IN (append) 
B’ o 


JH: HDEFS 追 加 、hflush、hsync 和 sync..……. 


追加 (append) 功能 被 HBase 用 来 保证 持久 性 ， 但 过 
去 的 Hadoop 不 文 持 此 功能 。 很 长 一 段 时 间 后 。HBase 才 文 
持 了 此 功能 ， 并 需要 打 若 干 补丁 。 所 有 这 些 内 容 都 源 自 
HADOOP-1700 问 题 ( 
http://issues.apache.org/jira/browse/HADOOP-1700 ) 。 问 
题 是 在 Hadoop 0.19.0 中 被 提交 的 ， 其 本 意 是 解决 文件 追加 
的 问题 。 但 是 实际 并 不 是 这 样 ，Hadoop 0.19.0 的 追加 兼容 
性 很 差 ， 以 至 于 一 个 简单 的 hadoop fsck / 都 会 因为 
HBase 的 日 志文 件 是 打开 状态 而 报告 HDFS 已 损坏 。 


所 以 这 个 问题 又 在 HADOOP-4379 或 HDFS-200 ( 
http://issues.apache.org/jira/brawse/HDFS-200 ) 中 被 重新 处 
理 ， 并 实现 了 syncFs( ) 来 帮助 文件 的 同步 修改 更 可 靠 。 
有 一 段 时 间 我 们 使 用 一 种 特定 的 代码 〈 见 HBASE- 

1470, http://issues.apache.org/jira/browse/HBASE-1470 ) 
来 检测 拥有 这 个 API 的 打 过 补丁 的 Hadoop。 


然后 是 HDFS-265 ( 
http://issues.apache.org/jira/browse/HDFS-265 ) ， 它 从 整体 
上 重新 审视 了 追加 的 想法 ， 并 引入 了 Syncable 接口 ， 这 
个 接口 拥有 hsync() 和 hflush() 方法 。 


要 注意 的 是 SequenceFile.wWriter.sync() 方法 
和 上 面 所 提 到 的 同步 方法 并 不 相同 : 它 同 文件 写 入 一 个 可 
以 帮助 读 取 或 恢复 数据 的 同步 标记 。 


HBase 现 在 会 检测 当前 的 Hadoop 库 是 否 文 持 SyncFs() 或 
hflush() 。 如 果 在 写 入 日 志 的 时 候 触 发 sync( ) ， 则 HBase 会 在 内 部 
调用 以 上 两 种 方法 之 一 。 但 是 ， 如 果 HBase 运 行 在 一 个 不 需要 持久 的 设 
置 下 ， 它 什么 也 不 会 调用 。sync( ) 使 用 的 是 管道 写 来 保证 日 志文 件 中 
数据 更 改 记录 的 持久 性 ， 这 部 分 内 容 在 8.3.5 节 中 进行 了 介绍 。 在 服务 
aa 系统 可 以 安全 地 从 废弃 的 日 志文 件 中 读 取 到 最 新 的 


总 之 ， 如 果 没 有 使 用 Hadoop 0.21.0 及 以 后 的 版 本 ， 或 移植 了 追加 
文 持 的 特殊 的 0.20.x 版 本 的 话 ， 用 户 就 可 能 面 对 数 据 丢 失 。 更 多 信息 详 
见 2.2.3 节 中 的 “Hadoop” 部 分 。 


8.4” 读 路 径 


HBase 的 每 个 列 族 使 用 多 个 存储 文件 来 进行 数据 存储 ， 这 些 文件 包 
舍 着 实际 的 数据 单元 或 KeyValue 实例 。 当 memstore 中 存储 的 对 HBase 
的 修改 信息 最 后 作为 存储 文件 被 刷 写 到 硬盘 中 时 ， 这 些 文件 束 被 创建 
了 。 后 台 合 并 进程 通过 将 小 文件 写 入 到 大 文件 中 来 减少 文件 的 数目 ， 
从 而 保证 文件 的 总 数 在 可 探 范 围 之 内 。major 合 并 最 后 将 文件 集合 中 的 
文件 合并 成 一 个 文件 ， 此 后 刷 写 又 会 不 断 创 建 小 文件 。 


由 于 所 有 的 存储 文件 都 是 不 可 变 的 ， 从 这 些 文件 中 删除 一 个 特定 
的 值 是 做 不 到 的 ， 通 过 重 写 存储 文件 将 已 经 被 删除 的 单元 格 移 除 也 坪 
毫 无 意义 的 。 募 碑 标 记 就 是 用 于 此 类 情况 的 ， 它 标记 着 “已 删除 ” 信 
已， 这 个 标记 可 以 是 单独 一 个 单元 烙 、 多 个 单元 格 或 一 整 行 。 


假设 用 户 今天 在 给 定 的 一 行 中 写 入 了 一 列 数据 ， 然 后 在 未 来 的 几 
天 里 不 停 地 在 其 他 几 行 中 添加 数据 ， 然 后 再 在 之 前 给 定 行 的 其 他 列 中 
写 入 数据 。 和 需要 考虑 的 问题 是 ， 假 设 之 前 添加 的 列 数 据 已 经 作为 
KeyValue 在 便 副 存储 了 一 段 时 间 ， 由 于 新 写 入 的 列 数据 会 存储 在 


memastore 里 或 者 也 被 刷 写 到 硬盘 中 ， 那 么 逻辑 上 的 一 整 行 数 据 到 底 存 
储 在 了 哪里 呢 ? 


换 句 话说 ， 当 使 用 Shell 对 那 一 行 执 行 一 个 ge REN, RIBAR 
道 该 返回 什么 ? ENAP, RATE EA REOR aR EN] 
被 存储 在 同一 个 实体 中 一 样 。 但 十 实际 上 数据 存储 在 分 离 的 KeyValue 
实例 中 ， 横 跨 任 意 数 目 个 存储 文件 。 


如 来 删除 了 最 初 的 列 值 ， 然 后 再 次 执行 get 命 令 时 ， 我 们 期 户 这 个 
值 已 经 被 删除 ， 然 而 实际 上 它 仍 然 存 在 于 某 处 ， 只 是 墓碑 标记 指出 用 
户 已 经 删除 了 它 。 但 是 标记 可 能 存储 在 距离 所 需 删 除数 据 很 远 的 地 
方 。8.1 节 详细 解释 了 这 个 方式 至 后 的 架构 。 


HBase 通 过 使 用 QueryMatcher 和 ColumnTracker 来 解决 这 个 
问题 ， 其 中 一 个 需要 精确 地 匹配 用 户 要 取出 的 列 ， 男 一 个 则 需要 包含 
所 有 的 列 。 它 们 都 可 以 设 定 最 大 匹配 的 版 本 数 。 它 们 都 会 跟踪 要 被 包 
舍 到 最 终结 果 中 的 内 容 。 


为 什么 Get 都 是 Scan 


在 HBase 以 前 的 版 本 中 ，Get 方法 是 作为 一 个 单独 的 
代码 路 径 实 现 的 。 在 最 近 的 版 本 中 ， 这 个 方式 作出 了 改变 
并 且 在 内 部 完全 被 Scan API 所 使 用 的 代码 替换 。 


既然 单独 一 个 Get 应 该 会 比 Scan 快 ， 用 户 可 能 会 怀 
疑 为 什么 要 这 样 做 。 一 个 单独 的 代码 路 径 可 以 使 用 一 类 特 
殊 的 知识 来 快速 访问 用 户 所 要 求 的 数据 。 


这 时 该 介绍 一 下 HBase 的 染 构 了 。HBase 中 没有 可 以 使 
我 们 直接 访问 等 定 行 或 列 的 索引 文件 。HFile 中 最 小 的 单 
元 是 块 ， 并 且 为 了 找到 所 要 求 的 数据 ，RegionServer 
代码 和 它 底 层 实现 的 Store 实例 必须 载 入 整个 可 能 存储 着 


所 需 数据 的 块 并 且 扫描 这 个 块 。 以 上 就 是 Scan 做 的 事 
情 。 


也 就 是 说 ， 一 次 Get 就 仅仅 对 单独 一 行进 行 扫 描 。 用 
户 可 以 创建 一 次 Scan ， 并 且 将 开始 行 设 定 为 你 寻找 的 那 
行 ， 且 将 结束 行 设 定 为 Start row + 1° 


在 读 取 所 有 存储 文件 来 查找 匹配 的 条 目 之 前 ， 需 要 有 一 个 快速 的 
阶段 : 使 用 时 间 戳 以 及 可 选 的 布 隆 过 滤器 # 来 跳 过 那些 绝对 不 

含 所 需 KeyValue 的 文件 。 然 后 ， 扫 描 剩 下 的 存储 文件 以 及 
memstore 来 寺 找 匹配 的 和 ° 


扫 摘 是 通过 RegionScanner 类 实现 的 ， 该 类 为 每 一 个 Store X 
例 获取 一 个 StoreScanner ， 每 个 Store 实例 代表 着 一 个 列 族 。 如 果 
读 操 作 排 除了 某 些 列 族 ， 那 么 它们 的 存储 也 同样 会 被 省 略 。 


StoreScanner 类 合并 了 Store 实例 包含 的 存储 文件 和 
memstore。 这 也 是 基于 布 隆 过 滤器 或 时 间 戳 的 盘 选 发 生 的 地 方 。 如 果 
用 户 想 要 最 近 一 个 小 时 内 的 版 本 的 数据 ， 那 么 用 户 可 以 跳 过 所 有 存储 
PTSD o STE EINNKGE SHAABAN ° 9.1 FE 

细 介 绍 了 如 何 排除 无 用 信息 以 及 如 何 利 用 StoreScanner ° 


StoreScanner 类 也 同样 包含 了 QueryMatcher (这 里 是 
ScanQueryMatcher X) ， 它 会 记录 到 底 哪个 KeyValue 需要 被 包 
含 在 最 终 的 结果 中 。 


RegionScanner 在 内 部 是 使 用 KeyValueHeap X, IZIT EER 
排序 来 处 理 存储 扫描 器 。StoreScanner 也 使 用 这 个 类 按照 同样 的 方 
法 对 存储 进行 排序 。 这 保证 了 用 户 可 以 按照 正确 的 顺序 来 读 取 
KeyValue (Miun, FET EERE) ° 


SFAT INTE, ESERE ME TBO TELE, 
或 者 在 调用 get ( ) 的 情况 下 定位 到 下 一 个 不 匹配 的 行 键 上 (大 于 起 始 
键 的 键 ) 。 然 后 扫描 需 就 准备 读 取 数 据 了 ， 图 8-10 展 示 了 其 运行 机 制 。 


Sorted, read sequentially 


Store: Colfam1 Store: ColFam1 


;| ee Ts 
‘ 
1 


mand 


图 8-10” 模 跨 存储 文件 、 硬 盘 以 及 内 存 来 存储 或 扫描 行 


对 于 一 次 get ( ) 调用 ， 所 有 的 服务 器 需要 做 的 是 在 
RegionScanner 上 调用 next()。 这 个 调用 在 内 部 读 取 所 有 可 能 会 
包含 在 最 后 结果 中 的 东西 。 这 将 包含 所 有 需要 的 版 本 。 假 设 一 列 有 3 个 
版 本 ， 用 户 要 求 取得 所 有 的 版 本 ， 而 这 3 个 KeyValue 实例 有 可 能 分 散 
在 任意 存储 文件 、 硬 盘 以 及 内 存 中 。next() 一 直 读 取 所 有 的 存储 文件 
直到 到 达 下 一 行 ， 或 已 经 找到 足够 多 的 版 本 来 返回 数据 。 


与 此 同时 ， 它 也 会 持续 跟 踩 删除 标记 。 由 于 它 扫 摘 过 当前 行 所 有 
的 KeyValue ， 因 此 会 遇 到 这 些 删除 标记 ， 并 会 意识 到 所 有 时 间 戳 小 
于 或 等 于 此 标记 的 数据 都 是 已 经 被 删除 了 的 数据 。 


图 8-10 将 一 个 逻辑 行 表示 为 一 组 KeyValue ， 其 中 一 些 在 相同 的 存 
储 文 件 中 ， 一 些 在 另外 一 些 文件 中 ， 并 能 够 横 跨 多 个 列 族 。 一 个 存储 
文件 和 memstore 在 基于 时 间 鹤 和 布 隆 过 小 絮 的 排除 过 程 中 被 跳 过 。 最 
后 一 个 存储 文件 中 的 删除 标记 被 用 来 屏蔽 条 上 日 ， 但 是 它们 仍然 属于 同 
一 行 数据 。 扫 摘 需 被 表示 为 存储 文件 附近 的 箭头 一 一 处 于 文件 中 
的 第 一 个 符合 的 条 目 或 是 紧 挨 着 所 要 求 的 行 ， 后 者 是 因为 这 个 存储 文 
件 中 没有 直接 匹配 的 条 目 。 


在 调用 next ( ) KHAR, AAABEE Stent EWH Te BS 
虑 。 内 部 循环 会 按照 时 间 降 序 一 个 接 一 个 地 从 存储 文件 中 读 取 
KeyValue ， 直 到 它们 超过 所 需要 的 行 键 。 


对 于 扫描 操作 ，ResultScanner 会 重复 调用 next( ) 直到 到 达 
结束 行 或 表 的 结尾 ， 或 者 对 于 当前 的 一 批 (扫描 器 缓存 设 定 ) 已 经 读 
了 足够 多 的 行 。 

最 终 的 结果 是 符合 给 定 get 或 scan 操作 要 求 的 一 组 KeyValue 实 
A o ee 然后 客户 端 可 以 通过 APT 方 法 来 访问 其 中 所 
包含 的 列 。 


8.5 ”region 查找 


为 了 让 客户 端 找到 包含 特定 主键 的 region，HBase 提 供 了 两 张 特殊 
的 目录 表 -ROOT- 和 .META. © @ 


-ROOT- 表 用 来 查询 所 有 .META, 表 中 region 的 位 置 。HBase 的 设 
计 中 只 有 一 个 root region， 即 root region 从 不 进行 拆 分 ， 从 而 保证 类 似 于 
B+ 树 结构 的 三 层 查找 结构 : 第 一 层 是 ZooKeeper 中 包含 root region 位 置 
信息 的 和 点 ， 第 二 层 是 从 -ROOT- 表 中 查找 对 应 meta region 的 位 置 ， 第 
三 层 是 从 .META, 表 中 查找 用 户 表 对 应 region 的 位 置 。 

目录 表 中 的 行 键 由 region 的 表 和 名、 起 始 行 和 ID GH Te LAAN 
的 当前 时 间 ) 连接 而 成 。 从 HBase 0.90.0 版 本 开始 ， 主 键 上 有 另 一 个 散 
列 值 附 加 在 后 面 。 不 过 目前 这 个 附加 部 分 只 用 在 用 户 表 的 region 中 。 示 
例 请 见 8.2.3 节 。 


as + 
| 上 
”不 用 担心 三 层 定位 策略 ，BigTable 的 论文 中 盖 述 了 
当 META. 的 region 大 小 为 128 MB 时 ， 它 可 以 定位 234 个 


region， 或 261 字 节 的 数据 〈 当 region 为 128 MB 时 ) 。 由 于 


region 的 大 小 可 以 在 对 存储 模式 没有 任何 影响 的 情况 下 进行 
扩展 ， 所 以 这 只 是 一 个 保守 信 计 ， 在 数据 量 增加 时 ，region 
的 大 小 可 以 适当 调 高 。 


虽然 客户 端 缓存 了 region 的 地 址 ， 但 是 初始 化 需求 时 需要 重新 查找 
region， 例 如 ， 绥 存 过 期 了 ， 并 发 生 了 region 的 拆 分 、 合 并 或 移动 。 客 
户 端 库 函 数 使 用 递归 查找 的 方式 从 目 永 表 中 重 狐 定位 当前 region 的 位 
置 。 它 会 从 对 应 的 .META, region 查 找 对 应 行 键 的 地 址 。 如 果 对 应 
的 .META. region 地 址 无 效 ， 它 就 向 root 表 询问 当前 对 应 的 .META, 表 的 
位 置 。 最 后 ， 如 果 连 root 表 的 地 址 也 失效 了 ， 它 会 同 ZooKeeper 丰 点 查 
询 root 表 的 新 地 址 。 


在 最 坏 的 情况 下 ， 客 户 端 需要 6 次 网 络 往返 请 求 来 定位 一 个 用 户 
region， 由 于 系统 假设 了 region 的 分 配 情 况 ， 特 别 是 meta region 的 分 配 情 
况 不 会 经 常 变 化 ， 所 以 只 有 当 查 找 失败 时 ， 客 户 端 才 会 认为 缓存 的 
region 地 址 失效 。 当 缓存 为 空 时 ， 客 户 端 需要 3 次 网 络 往返 请 求 来 更 新 
缓存 。 如 果 用 户 想 减 少 未 来 请 求 region 地 址 的 次 数 ， 可 以 在 请 求 之 前 巴 
刷 写 缓存 地 址 。 参 考 3.6 节 详细 了 解 主动 刷 写 region 地 址 缓存 的 方法 。 


图 8-11 展 示 了 先 通 过 meta 表 ， 最 终 通 过 root 表 来 确定 一 个 用 三 
region 位 置 的 过 程 。 一 旦 获取 到 用 户 region 的 位 置 ， 其 数据 就 可 以 被 直 
接 访 问 。 图 中 的 查询 被 编号 了 ， 并 假定 开始 时 缓存 是 空 的 。 如 果 缓 存 
KHT, (BRTH F region ` meta region 和 root region 的 位 置 都 失效 ， 
则 需要 额外 的 3 次 查询 ， 即 总 共 需 要 6 次 查询 来 完成 这 次 定位 。 
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图 8-11 Fl region MERT, Py 


8.6 region ii a4 


region 的 各 种 状态 均 由 master 触 发 ， 并 使 用 AssignmentManager 
类 进行 管理 。 这 个 类 会 从 region 的 下 线 (offline) 状态 开始 一 直 跟 踩 ， 
并 管理 它 的 状态 。 表 8-1 列 举 了 region 可 能 的 所 有 状态 。 


表 8-1 region 的 可 能 状态 


打开 region 的 清 求 已 经 发 送 到 了 服务 吕 
服务 器 开始 打开 region 
region 已 经 打开 ， 并 且 完 全 可 以 使 用 


需要 进行 3 次 查询 


HE 


关闭 region 的 请 求 被 送 到 服务 器 
服务 吕 正 在 处 理 要 关闭 的 vegion 
region 已 经 被 关闭 了 
RAJE region 
region 已 经 被 切 分 了 


状态 的 改变 可 能 由 master 发 起 ， (HFT Re regioni 5 az Acne o fi 
如 ， 当 master 把 region 分 配 到 一 个 服务 器 后 ， 由 服务 器 来 完成 打开 过 


程 。 此 外 ， 拆 分 过 程 由 region 服 务 硕 发 起 ， 这 个 过 程 可 能 引发 一 系列 的 
region 关 闭 和 打开 事件 © 


由 于 事件 都 旦 分 布 式 的 ， 服 务 郁 使 用 ZooKeeper 来 跟踪 一 个 特定 
znode 的 状态 。 


8.7 ZooKeeper 


从 0.20.x 版 本 开始 ，HBase 使 用 ZooKeeper 作 为 其 协同 服务 组 件 。 其 
主要 功能 包括 跟踪 region 服 务 右 、 傈 存 root region 的 地 址 等 。 在 0.90.x 中 
引入 了 一 个 新 的 master 实 现 ， 使 其 与 ZooKeeper 集 成 得 更 紧密 。 它 使 
HBase 可 以 移 除 在 master 和 region 服 务 器 间 传 递 的 心跳 信息 ， 这 部 分 功 
能 现在 被 放 在 了 ZooKeeper 中 。 现 在 ， 如 果 某 一 方 有 变动 ，HBase 能 及 
人 而 之 前 需要 等 待 一 个 固定 的 时 间 间 隔 才 能 

出 通知 。 


这 里 有 HBase 建 立 的 znode 列 表 。 默 认为 /hbase ， 这 个 znode 的 名 
称 由 zookeeper .znode.parent 属性 决定 。 以 下 是 znode 的 列表 以 及 
它们 的 作用 。 


ae 
W 上 
一 一 例子 使 用 了 ZooKeeper 命 令 行 接口 (简写 为 CLI) 来 
执行 命令 。 用 户 可 以 按照 以 下 方法 进行 局 动 : 


$ $ZK_HOME/bin/zkCli.sh -server < quorum-server> 


fal HARE AA TAIL To 


/hbase/hbaseid 


fi cluster ID， 与 存储 在 HDFS 上 的 *hbase.id* 文 件 内 容 相 同 ， 例 
如 : 


[zk: localhost(CONNECTED) 1] get /hbase/hbaseid 


€627e130 -0ae2 - 448d -8bb5-117a8af06e97 


/hbase/master 


包含 服务 器 名 (参见 5.2.5 节 ) ， 例 如 : 


[zk: localhost(CONNECTED)2] get /hbase/master 


foo.internal, 60000, 1309859972983 


/hbase/replication 


包含 副本 信息 ， 参 见 8.8.2 节 。 


/hbase/root-region-server 


包含 -ROOT- region 所 在 region 服 务 句 的 机 絮 名 ， 这 个 经 常 在 region 
定位 中 使 用 (参考 8.5 节 ) 。 例 如 : 


[zk: localhost(CONNECTED) 3] get /hbase/root-region-server 


rsi.internal, 60000, 1309859972983 


/hbase/rs 


IX Sznodeze/EA HT Eregion kART A, SRE CORFR RAR 
a o &-Sznodesh EMm T A, Ff Anode eregionAks aH 
mK, Pl: 


[zk: localhost(CONNECTED)4] ls /hbase/rs 


[rsi.internal, 60000, 1309859972983, rs2.internal, 60000, 1309859345233] 


/hbase/shutdown 


ST RR ET ie, LTE AE TA], DL 
当 集 群 被 关闭 时 的 空 状态 ， 例 如 


[zk: localhost(CONNECTED) 5] get /hbase/shutdown 


Tue Jul 05 11:59:33 CEST 2011 


/hbase/splitlog 


val A EHR 分 相关 的 父 SO TR, FN8.3.8 TAJ“ H BAR ays 4}: 


[zk: localhost(CONNECTED) 6] ls /hbase/splitlog 


[hdfs%3A%2F%2F localhost%2Fhbase%2F . logs%2Ffoo.internal%2C60020%2C \ 
1309850971208%2F foo. internal%252C60020%252C1309850971208 . 1309851636 
647, 

hdf s%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Ffoo.internal%2C60020%2C 
\ 


1309850971208%2F foo. internal%252C60020%252C1309850971208 . 1309851641 
956, 


hdf s%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Ffoo.internal%2C60020%2C 
\ 


1309850971208%2F foo. internal%252C60020%252C1309850971208 . 1309851784 
396] 
[zk: localhost(CONNECTED) 7] get /hbase/splitlog/ \ 
\hdfs%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Fmemcache1. internal%2C 
60020%2C1309850971208%2Fmemcache1. internal%252C60020%252C1309850971 
208. \ 


1309851784396 


unassigned foo.internal, 60000, 1309851879862 


[zk: localhost(CONNECTED) 8] get /hbase/splitlog/ \ 

\hdfs%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Fmemcache1. internal%2C 
60020%2C1309850971208%2Fmemcache1. internal%252C60020%252C1309850971 
208. \ 

1309851784396 


owned foo.internal, 60000, 1309851879862 


[zk: localhost(CONNECTED) 9] ls /hbase/splitlog 


[ RESCAN0000293834, hdfs%3A%2F%2Flocalhost%2Fhbase%2F . logs%2Fmemcache 
1. N 
internal%2C60020%2C1309850971208%2Fmemcache1.internal%252C \ 


60020%252C1309850971208 . 1309851681118, RESCAN0000293827, RESCAN000029 
3828, \ 
RESCAN0000293829, RESCAN0000293838, RESCANQ000293837 | 


这 个 例子 展示 了 许多 东西 :用 户 可 以 看 到 被 拆 分 的 日 志 先 是 被 
unassign， 之 后 被 一 个 region 服 务 获取 。RESCAN 市 点 代表 workers 
el 服务 器 ) 要 进行 很 多 检查 工作 来 防止 拆 分 工作 在 其 他 机 右上 失 
由 o 


/hbase/table 


当 表 被 禁用 ， 信 息 会 被 添加 到 这 个 znode 之 下 。 表 名 是 新 建 的 znode 
名 ， 内 容 是 “DISABLED”， 例 如 : 


[zk: localhost(CONNECTED) 10] ls /hbase/table 


[testtable] 
[zk: localhost(CONNECTED) 11] get /hbase/table/testtable 


DISABLED 


/hbase/unassigned 


这 个 znode 被 AssignmentManager 用 来 跟踪 集群 的 region 状 态 。 
它 包含 未 打开 (open) 的 region 的 znode， 不 过 znode 的 状态 是 变化 的 ， 
znode 名 是 region 的 散 列 值 。 例 如 : 


[zk: localhost(CONNECTED) 11] ls /hbase/unassigned 


[8438203023b8cbba347eb6fc118312a7 ] 


8.8 复制 


HBase 复 制 是 一 种 在 不 同 HBase 部 署 中 复制 数据 的 方法 。 它 可 以 作 
为 一 种 灾难 恢复 的 方法 ， 并 且 可 以 提供 HBase 层 的 高 可 用 性 。 同 时 在 实 
际 应 用 中 ， 例 如 ， 将 数据 从 一 个 面 回 页 面 的 集群 复制 到 一 个 MapReduce 
集群 ， 后 者 可 以 同时 处 理 新 数据 和 历史 数据 。 然 后 再 自动 将 数据 传 回 
面向 页 面 请 求 的 集群 。 


HBase 复 制 中 最 基本 的 架构 模式 是 “主推 送 ”(master-push) ， 因 为 
每 个 region 服 务 器 都 有 自己 的 WAL (或 HLog ) ， 所 以 及 很 容易 保存 现 
在 正在 复制 的 位 置 ， 其 类 似 于 其 他 众所周知 的 解决 方案 ， 例 如 ， 
MySQL 的 主 /从 复制 只 使 用 二 进 制 日 志 来 跟踪 修改 。 一 个 主 集 群 可 以 将 
en ee 
ZN ° 

复制 是 异步 进行 的 ， 意 味 着 集群 可 以 是 地 理 上 彼此 远离 的 ， 它 们 


之 间 的 连接 可 以 在 某 些 时 间断 开 ， 在 主 集群 上 的 修改 不 能 马上 在 从 集 
群 上 进行 同步 〈 最 终 一 致 性 ) 。 图 8-12 展 示 了 复制 的 工作 流程 和 架构 。 


Master Cluster Synchronous Call 
o00000000000 


Synchronous Call 
oooooo00o0o0000 


Synchronous Call 
ooo0000000000 


图 8-12 集群 复制 架构 图 


这 里 使 用 的 复制 格式 与 MySQL 基 于 语句 的 复制 概念 相同 。® 与 
SQL 语 句 不 同 ， 所 有 的 WALEdits (包括 来 自 客户 端的 PUt 和 Delete 
产生 的 多 单元 格 操作 ) 都 会 被 复制 以 保证 原子 性 。 


来 自 每 个 region 服 务 器 的 HLog 是 HBase 复 制 的 基础 ， 并 且 只 要 它们 
需要 将 数据 复制 到 从 集群 ， 它 们 就 必须 被 保存 在 HDFS 上 。 每 个 region 
服务 器 从 它 需 要 的 最 老 的 日 志 开 始 复制 ， 同 时 在 ZooKeeper 中 保存 当前 
恢复 的 位 置 来 答 化 错误 恢复 。 每 个 从 集群 恢复 的 位 置 可 能 不 同 ， 但 它 
们 处 理 的 HLog 队列 内 容 是 相同 的 。 


yee RET UTS, ERRATA 
匀 衡 从 集群 的 负载 。 


8.8.1 Log Edit 的 生命 周期 


接 下 来 将 介绍 了 一 条 数据 修改 如 何 从 客户 端 发 起 之 后 同 主 集群 交 
互 ， 并 同时 复制 到 从 集群 的 过 程 。 


1. 常规 处 理 


客户 端 利 用 HBase API 发 送 一 个 Put 、Delete 或 Increment 到 
region 服 务 器 。 这 些 请 求 包 含 的 键 / 值 对 被 region 服 务 器 转化 为 WALEdit 
， 同 时 WALEdit 会 被 复制 程序 检查 ， 并 以 列 族 为 单元 复制 数据 。 修 改 被 
添加 到 WAL 中 ， 并 把 实际 数据 添加 到 MemStore 。 


另外 一 个 线程 从 日 志 中 读 取 数据 〈 作 为 批量 处 理 的 一 部 分 ) ， 并 
且 只 有 可 以 复制 的 KeyValue 被 保存 下 来 (只 有 在 拥有 用 户 数 据 日 志 
的 情况 下 ， 并 且 列 族 中 有 GLOBAL 域 定 义 的 复制 才 会 被 保存 ， 目 录 表 的 
修改 不 被 保存  。 当 缓冲 区 满 了 或 读 到 了 文件 末尾 ， 绥 冲 区 中 的 修改 
被 发 送 到 从 集群 一 个 随机 的 region 服 务 右 上 。 


同步 地 ， 当 region 服 务 器 收 到 这 些 修改 后 ， 它 会 顺序 读 取 这 些 修 改 
信息 ， 并 且 把 它们 分 成 不 同 的 缓冲 区 ， 且 每 张 表 一 个 缓冲 区 。 一 旦 所 
有 的 修改 都 被 读 取 后 ， 每 个 缓冲 使 用 HBase 客 户 端 (使 用 HTablePool 
管理 的 HTable ) 来 把 缓冲 区 中 的 修改 写 入 表 中 。 这 样 可 以 达到 并 行 写 
入 的 效果 (MultiPut) 。 


在 主 集群 的 region 服 务 器 中 ， 当 前 WAL 中 被 复制 的 位 置 会 在 
ZooKeeper 中 注册 ° 


2. 没有 反馈 的 从 集群 


数据 修改 信息 以 相同 的 方式 插入 到 主 集群 。 在 另外 的 线程 中 ， 
region 服 务 器 读 出 日 志 、 过 滤 并 缓冲 修改 信息 ， 这 些 过 程 与 正常 过 程 一 
样 。 如 琳 从 集群 的 region 服 务 右 没有 啊 应 RPC 请 求 ， 主 集群 的 region 服 
务 器 将 会 睡眠 并 按照 配置 的 次 数 重 试 。 如 果 从 集群 region 服务 器 还 是 不 
可 用 ， 主 集群 服务 器 会 重新 选择 一 台 从 集群 服务 器 来 提交 修改 。 


与 此 同时 ，WAL 会 回 深 并 存储 在 一 个 ZooKeeper 的 队列 中 。 日 志 被 
region 服务 器 归档 (归档 只 是 简单 地 把 日 志 从 region 服 务 器 的 一 个 目录 
ee a 目录 中 ) ， 并 更 新 它们 在 复制 线程 内 存 队列 中 

、 12 o 
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8.8.2 ”内 部 机 制 
本 节 将 深入 介绍 复制 的 各 种 内 部 机 制 和 操作 。 
1. 挑选 要 复制 的 目标 服务 器 


当主 集群 region 服务 如 初始 化 复制 源 到 从 集群 时 ， 它 会 首先 用 提供 
给 它 的 集群 键 连接 从 集群 的 ZooKeeper 群 组 (使 用 到 的 集群 键 包 括 
hbase. zookeeper.quorum ` zookeeper .znode.parent 和 
hbase .zookeeper. property .clientPort 的 值 ) 。 然 后 它 会 扫 
Hi/hbase/rs 目录 来 发 现 所 有 可 用 的 汇聚 (可 以 用 来 接收 复制 流 的 服务 
器 ) 并 随机 挑选 一 部 分 服务 器 来 复制 数据 (默认 是 10%) 。 例 如 ， 当 从 
集群 有 150 台 服务 器 时 ，15 台 服务 赴 会 被 挑选 为 接收 复制 流 的 服务 器 ， 
由 于 所 有 的 主 集群 region 服 务 偶 都 会 同 这 10% 的 服务 器 发 送 复 制 流 ， 所 
以 很 可 能 从 集群 region 服 务 咒 的 负载 非常 高 例如， 当主 集群 中 10 台 服 
务 絮 复制 数据 到 一 个 5 人 台 服 务 器 的 从 集群 时 ， 主 集群 每 次 复制 时 都 会 随 
机 挑选 从 集群 中 一 台 region 服 务 左 ， 这 样 从 集群 中 服务 器 被 重复 选中 的 


概率 会 变 高 。 
2. 跟踪 日 志 中 被 复制 到 的 位 置 


每 个 主 集 群 的 region 服 务 絮 在 znode 目 录 中 都 有 它 目 己 对 应 的 
znode， 并 日 每 个 从 集群 都 有 其 对 应 的 znode (5 个 从 集群 ， 束 会 有 5 个 
znode 被 创建 ) ， 并 且 每 个 znode 都 包含 一 个 需要 处 理 的 HLog 队列 。 
个 队列 都 会 跟踪 region 服 务 器 创建 的 HLog , 不 过 它们 队列 的 大 小 可 能 
不 同 。 例 如 ， 如 有 果 一 个 从 集群 一 段 时 间 不 可 用 ， 那 么 它 的 HLog 不 应 被 
删除 ， 而 需要 保存 在 队列 中 (而 其 他 从 集群 的 日 志 都 被 处 理 完了 ) 。 
请 参考 本 世 的 “region 服 务 器 失效 "部 分 


当 源 初始 化 好 后 ， 它 便 包 括 当 前 region 服务 器 要 写 入 的 HLog ° 4 
志 深 动 时 ， 新 的 文件 在 可 用 之 前 被 添加 到 每 个 从 集群 的 znode 队 列 

中 。 这 样 可 以 保证 所 有 资源 都 知道 有 新 的 HLog 可 以 复制 到 目 己 的 集群 
中 ， 但 这 种 操作 现在 还 是 十 分 消耗 系统 资源 的 。 当 复制 线程 从 日 志文 
件 中 读 不 到 新 的 日 志 条 目 《因为 它 到 达 了 文件 的 最 后 一 个 块 ) ， 并 且 
队列 中 还 有 其 他 文件 的 路 径 时 、 队列 中 的 旧 路 径 就 会 被 丢弃 。 这 意味 
着 ， 当 一 个 源 是 最 新 的 ， 且 region 服 务 器 正在 写 入 时 ， 读 到 当前 文件 末 
尾 的 文件 不 会 被 删除 。 


当日 志 被 归档 (由 于 日 表 、 不 再 被 使 用 ， 或 日 志 的 数目 超过 了 
hbase.regionserver. maxlogs 配置 的 值 ， 也 有 可 能 是 由 于 修改 
的 写 入 速度 比 region 刷 写 速度 快 ) ， 它 会 通知 源 线程 日 志 地 址 发 生 的 变 
化 。 如 果 一 个 源 已 经 同步 完了 这 个 日 志 ， 便 会 忽略 这 条 信息 。 如 果 这 
个 文件 在 队列 中 ， 那 么 路 径 就 会 被 更 新 。 如 有 果 日 志 正 在 被 同步 ， 且 修 
改 是 原子 性 的 ， 因 此 读 进 程 在 文件 移动 完成 之 前 不 会 尝试 读 取 文 件 。 
同时 ， 移 动 文件 是 由 NameNode 操 作 完成 的 ， 所 以 当日 志 正 在 被 读 取 
上 时， 不 会 产生 什么 异常 。 


3. 读 取 、 过 滤 以 及 发 送 数据 修改 


默认 情况 下 ， 一 个 源 会 笑 试 读 取 日 志文 件 ， 并 尽 可 能 快 地 将 它们 
传送 到 从 集群 的 接收 服务 器 上 。 这 件 事 自 先 受到 日 志 过 滤 的 限制 ， 只 
有 被 分 万 GLOBAL RAE ANB A ee A A KeyValue 会 被 你 
留 。 第 二 个 限制 是 每 个 从 集群 同步 总 大 小 ， 默 认为 64 MB。 这 意味 着 3 
E 


一 旦 达到 缓冲 修改 信息 的 最 大 值 ， 或 夸 到 了 日 志文 件 的 末尾 ， 源 
线程 将 会 停止 读 取 并 随机 挑选 一 个 可 接收 数据 的 从 集群 服务 器 来 同步 
数据 〈 从 一 个 生成 的 从 集群 服务 器 子 集 列 表 中 挑选 ) 。 它 会 直接 把 
RPC 请 求 发 到 挑选 的 服务 右上 ， 如 琳 返 回 成 功 ， 源 会 判断 当前 文件 是 
合 读 完 。 如 琳 读 完 ， 则 源 会 从 队列 中 删 挥 这 个 znode。 如 末 没 有 读 完 ， 
则 在 日 志 的 znode 中 注册 一 个 新 的 位 移 。 如 果 RPC 抛 出 异常 ， 源 会 在 重 
试 10 次 之 后 挑选 一 个 新 的 服务 骨 。 


4. 清理 日 志 


如 和 没有 局 用 同步 复制 ，master 的 日 志清 理 线程 会 按照 配置 的 生存 
期 (Time-To-Live, TTL) 删除 旧 的 日 志 。 这 种 机 制 在 有 复制 时 表现 不 
太 好 ， 因 为 归档 日 志 超 出 TIL 后 有 可 能 还 在 队列 中 。 所 以 ， 稚 认 行 为 要 
增强 了 一 些 ， 即 如 果 日 志 超 过 了 TTL， 清 理 线程 会 查看 每 个 队列 直到 找 
到 日 志 (同时 缓存 其 找到 的 日 志 ) 。 如 果 在 队列 中 没有 找到 日 志 ， 则 
日 志 会 被 删除 。 下 次 还 需要 查找 日 志 时 ， 它 会 先 检查 缓存 。 


5 .region 服 务 器 异常 


ABregionhkhs a2 KL, 7EZooKeeper FRx bMS 
SE ° AEN, RARA E LAT > A ZooKeeperze 
ae 所 以 我 们 可 以 依靠 它 和 它 的 语义 来 帮助 我 们 管理 队列 的 传 
Hij ° 

主 集 群 的 region 服 务 器 都 会 为 其 他 服务 器 保留 一 个 监听 器 

(watcher) ， 以 便当 其 他 服务 器 前 泪 时 收 到 通知 (master 也 是 这 样 做 
的 ) 。 当 有 其 他 服务 器 月 江上 时 ， 它 们 会 竞争 着 为 宕 机 服务 器 的 znode 创 
建 一 个 叫做 lock 的 znode， 且 该 znode 中 包含 其 队列 。 创 建成 功 的 服务 
铝 会 把 队列 添加 到 自己 的 znode 中 去 (由 于 ZooKeeper 不 支持 改名 操作 ， 
所 以 必须 逐个 进行 添加 ) ， 并 且 在 这 个 过 程 完 成 之 后 ， 它 将 删除 旧 的 
它 恢 复 队 列 的 znode 会 用 当前 服务 恤 的 ID 附加 宕 机 服务 右 的 名 称 
D 命 Z o 


一 旦 这 些 完成 ， 主 集群 region 服 务 器 会 为 每 个 复制 后 的 队列 创建 一 
个 新 的 源 线程 ， 并 且 每 个 线程 都 会 按照 读 取 /过 滤 / 传 输 的 模式 工作 。 最 
主要 的 不 同 是 ， 队 列 不 会 有 新 的 数据 ， 因 为 它们 不 属于 新 的 region 服 务 
荆 ， 也 束 是 说 ， 当 读 进 程 读 到 日 志 的 结尾 时 ， 队 列 的 znode 会 被 删除 ， 
并 且 主 集群 的 region 服 务 右 会 关闭 这 个 复制 源 。 


例如 ， 假 设 一 个 主 集群 有 3 个 region 服 务 器 同时 将 数据 同步 到 id 为 2 
的 从 集群 。 下 面 的 目录 结构 代表 了 znode 的 布局 。 可 以 发 现 region 服 务 
右 的 znode 都 包含 一 个 peers znode， 其 中 包括 一 个 队列 。 队 列 中 znode 的 
名 字 代 表 HDFS 中 实际 的 文件 和 名， 格式 


为 "address,port,timestamp ”。 


/hbase/replication/rs/ 
1.1.1.1, 60020, 123456780/ 


1.1.1.1,60020.1234 (Contains a position) 
1.1.1.1,60020.1265 
1.1.1.2, 60020,123456790/ 


1.1.1.2,60020.1214 (Contains a position) 
1.1.1.2,60020.1248 
1.1.1.2,60020.1312 
1.1.1.3,60020, 123456630/ 
peers/ 


2/ 
1.1.1.3,60020.1280 (Contains a position) 


现在 ， 我 们 可 以 认为 1.1.1.2 的 ZooKeeper 会 话 丢 失 。 其 他 region 服 务 
fi BI Fe POR 建 锁 ， 此 时 1.1.1.3 创 建成 功 。 然 后 ， 它 将 队列 加 上 窜 
机 服务 器 的 名 字 后 ， 将 所 有 队列 都 转移 到 自己 的 对 等 znode 下 。 在 
1.1.1.3 清 理 老 znode 前 ，ZooKeeper 中 的 结构 如 下 : 


/hbase/replication/rs/ 
1.1.1.1,60020,123456780/ 
peers/ 
2/ 
1.1.1.1,60020.1234 (Contains a position) 
1.1.1.1,60020.1265 
1.1.1.2,60020,123456790/ 
lock 
peers/ 


,60020.1214 (Contains a position) 


这 2 
.1.2,60020.1248 
.1.2, 60020.1312 
1.1.1.3, ,123456630/ 
peers/ 


.3,60020.1280 (Contains a position) 
.2,60020,123456790/ 
,60020.1214 (Contains a position) 
, 60020.1248 
, 60020.1312 


之 后 ， 在 1.1.1.3 完 成 从 1.1.1.2 复 制 最 后 一 条 HLog 前 ， 我 们 可 以 认 
为 它 也 宕 机 了 (也 会 有 一 些 新 的 日 志 在 正 常 队列 中 ) 。 最 后 剩 下 的 
region 服 务 器 会 锁定 1.1.1.3 的 znode， 同 时 开始 转移 队列 到 它 的 peer 
znode F ° 目录 结构 如 下 : 


/hbase/replication/rs/ 
1.1.1.1, 60020, 123456780/ 
peers/ 
2/ 
1.1.1.1,60020.1378 (Contains a position) 


2-1.1.1.3, 60020, 123456630/ 
1.1.1.3,60020.1325 (Contains a position) 
1.1.1.3,60020.1401 

2-1.1.1.2, 60020, 123456790- 


1.1.1.3, 60020, 123456630/ 
1.1.1.2,60020.1312 (Contains a position) 
1.1.1.3, 60020, 123456630/ 
lock 


1.1.1.3,60020.1325 (Contains a position) 
1.1.1.3,60020.1401 

1.1.1.2, 60020, 123456790/ 
1.1.1.2,60020.1312 (Contains a position) 


Bil i E TRE Be, CE Ba PS Ce GE 
你 的 需求 


© 见 维基 百科 中 的 “B+ trees” 页 面 ( 
http://en.wikipedia.org/wiki/B%2B tree ) ° 


@ 见 O'Neil 在 1996 年 发 表 的 论文 “LSM 树 ”( 
http://citeseerx.ist.psu.edu/viewdoc/summary ?doi=10.1.1.44.2782 ) ° 


© ¥ A Doug Cutting 在 2005 年 12 月 5 日 发 表 的 一 篇 论文 “Open Source 
Search” ( 

http://www. haifa.ibm.com/Workshops/ir2005/papers/DougCutting- 
Haifa05.pdf ) ° 


@ 在 特殊 情况 下 ， 用 户 可 以 通过 Put.setwriteToWAL (boolean) 方法 关 
闭 该 步骤 ， 但 并 不 推荐 禁用 持久 。 


© 见 社区 官方 问题 跟踪 记录 HADOOP-3315 的 细节 ( 
http://issues.apache.org/jira/browse/HADOOP —3315 ) ° 


© 见 维基 百科 中 “Write-ahead logging” — 7 ( 
http://en.wikipedia.org/wiki/write-aheadlogging ) ° 


@ 后 面 它 们 分 别 被 引用 为 root 表 和 meta 表 ， 例 如 ，-ROOT- 反映 了 它 在 
HBase 中 实际 的 表 名 ， 而 称 它 为 root 表 则 强调 了 它 的 作用 。 


查看 在 线 文 档 http://dev.mysql.com/doc/refman/5.1/en/replication- 
formats.html 以 获得 更 多 细 闻 信息 。 


Bom ”高 级 用 法 


这 一 章 会 更 深入 地 探讨 HBase 存 储 设计 架构 中 的 各 种 问题 。 只 有 设 
计 合 适 的 表 结 构 、 行 键 、 列 名 等 才能 充 份 利 用 HBase 体 系 结构 的 优势 。 


9.1 行 键 设计 


HBase 有 两 种 基本 的 键 结构 : 行 键 (row key) 和 列 键 (column 
key) 。 两 者 都 可 以 存储 有 意义 的 信息 ， 这 些 信息 有 两 类 ， 一 种 是 键 本 
身 存 储 的 内 容 ， 另 一 种 是 键 的 排列 顺序 。 下 面 会 利用 这 些 键 来 解决 一 
些 用 户 在 设计 存储 方案 时 常 遇 到 的 问题 。 


9.1.1 概念 


首先 我 们 有 要 分 析 一 下 ， 与 磁盘 文件 相 比 ，HBase 中 表 的 数据 分 布 的 
各 种 细 世 信息 。HBase 的 表 中 的 数据 分 割 主 要 使 用 列 族 而 不 是 列 ， 这 与 
一 般 传 统 的 列 式 存储 数据 库 的 概念 有 所 不 同 。 图 9-1 表 明了 ， 虽 然 用 户 
逻辑 上 把 一 个 单元 格 的 数据 存 到 了 一 张 表 中 ， 但 实际 上 瓜 层 存储 十 按 
列 族 线性 地 存储 了 单元 格 ， 同 时 单元 格 包 含 了 所 有 它 必要 的 信息 。 


左上 角 的 图 片 展示 了 数据 的 逻辑 布局 ， 用 户 设 是 了 行 和 列 。 列 包 
括 了 HBase 符 有 的 列 族 和 列 限 定 符 ， 从 而 组 成 列 健 。 同 时 ， 每 一 行 还 有 
行 键 ， 所 以 用 尸 可 以 通过 行 健 得 到 人 逻辑 布局 中 一 行 的 所 有 列 。 


右上 角 的 图 片 展示 了 逻辑 布局 如 何 转换 为 实际 的 物理 存储 布局 。 
每 一 行 的 单元 格 被 有 序 存 储 ， 同 时 不 同 列 族 的 数据 存储 在 不 同文 件 
中 。 换 名 话说， 磁盘 上 一 个 列 族 下 所 有 的 单元 格 都 存储 在 一 个 存储 文 
件 (store file) 中 ， 不 同 列 族 的 单元 格 不 会 出 现在 同一 个 存储 文件 中 。 


因为 HBase 不 存储 任何 在 表 中 没有 值 的 单元 格 (在 RDBMS 中 ， 
NULL 可 作为 空 值 存储 ) ， 人 磁盘 文件 中 也 只 有 这 些 已 经 有 值 的 单元 格 。 
同时 每 个 单元 格 在 实际 存储 时 也 保存 了 行 键 和 列 键 ， 所 以 每 个 单元 格 
都 单独 存储 了 它 在 表 中 所 处 位 置 的 相关 信息 。 


cfixl cfl:c2 cf: A2: 2:2. cf2: 


ae 


rl: cfl:cl:t): <value> \x00 3: cf2:¢1:t3:<value> 
1B3:cf2:c:t2:<value> 
ti: cfl: c1 <value> : t1 :\x00 E cl: t :<value> 


rl- <value>:cf1:c1: t1: \x0d 
E_r 
相同 的 存储 要 求 

人 StoreFile “cf1/1234" StoreFile “cf2/1234" 


图 9-1 一 行 数据 存储 在 线性 的 单元 格 集合 内 单元 格 包 含 了 所 有 重要 的 信息 


此 外 ， 同 一 个 单元 格 的 多 个 版 本 被 单独 存储 为 连续 的 单元 格 ， 当 
单元 格 被 存储 时 还 需要 添加 必要 的 时 间 戳 。 单 元 格 按照 时 间 戳 降序 排 
列 ， 所 以 在 HFile 的 Reader 读 取 数 据 时 ， 最 新 的 值 移 被 读 到 ， 这 也 是 
HBase 设 计 模 式 中 典型 的 读 取 数据 的 方式 。 


含有 结构 信息 的 整个 单元 格 在 HBase 中 被 叫做 KeyValue 。 其 中 不 
仅 包含 用 户 生 成 时 设 定 的 列 (column) 和 对 应 的 值 ， 也 包含 行 键 和 时 
HIR o KeyValue 存储 时 先 按 行 键 排序 ， 当 一 行 有 多 个 单元 格 时 内 部 
再 按 列 键 排序 。 


右 下 和 角 图 片 展示 了 一 张 逻辑 表 在 物理 存储 文件 中 的 数据 布局 。 
HBase API 包 含 多 种 访问 存储 文件 的 方法 ， 由 于 键 从 左 到 右 降序 排列 : 
用 户 可 以 按 行 键 检索 一 行 数据 ， 这 样 可 以 有 效 地 减少 查询 特定 行 和 行 
范围 的 时 间 。 设 定 列 族 可 以 有 效 地 减少 查询 的 存储 文件 ， 建 议 用 户 在 
查询 时 指定 所 需 的 特定 列 族 。 


虽然 时 间 玲 或 者 版 本 在 整个 键 的 最 右边 ， 但 是 它 征 很 重要 的 角 选 
内 容 。 存 储 文件 中 为 每 个 单元 格 (cell) 都 保存 了 时 间 惟 ， 所 以 当 用 户 
查询 一 个 两 小 时 前 修改 过 的 单元 格 时 ， 就 可 以 跳 过 只 包含 如 4 小 时 前 数 
据 的 存储 文件 。 详 细 内 容 请 参见 8.4 节 。 


另 一 个 层次 的 查询 粒度 是 列 限 定 符 (column qualifier) 。 用 户 可 
以 在 查询 数据 时 指定 特定 的 列 ， 或 定义 过 滤器 时 包含 或 排除 用 户 需 要 
访问 的 列 。 不 过 在 这 一 粒度 上 筛选 数据 时 ， 系 统 不 得 不 检查 每 个 送 到 
过 滤器 的 KeyValue ， 所 以 通过 限定 符 筛 选 数据 只 会 有 小 幅度 的 性 能 
test ° 


值 (value) 是 查询 筛选 时 最 后 一 个 筛选 条 件 ， 也 是 应 用 最 为 广泛 
的 痛 选 条 件 ， 使 用 值 贤 选 数据 引起 的 性 能 提升 与 使 用 限定 符 时 类 似 : 
系统 需要 检查 每 个 单元 格 来 确定 是 否 满足 用 户 的 筛选 条 件 。 用 户 只 能 
使 用 过 滤器 在 服务 器 端 筛选 值 。 图 9-2 展 示 了 KeyValue 不 同 字段 的 作 
用 。 


键 


—<—< a 


miei tT X 


W 
饰 选 存储 文件 W X 
yY 


各 种 适用 的 过 滤器 v 
性 能 


增长 的 数据 基数 及 筛选 基 


图 9-2 ”从 左 到 右 查询 数据 的 性 能 变 差 


图 9-1 左 下 角 的 图 片 展示 了 “数据 位 移 ”。 对 于 一 个 KeyValue ， 由 
于 筛选 的 效率 从 左 至 右 明 显 下 降 ， 所 以 在 KeyValue 设计 时 用 户 可 以 
考虑 把 一 些 重要 的 和 旬 选 信息 左 移 到 合适 的 位 置 ， 从 而 在 不 改变 数据 量 
的 情况 下 ， 用 户 可 以 改变 数据 的 排序 并 提高 查询 性 能 © 


9.1.2 AKSAK 


到 目前 为 止 ， 用户 可 能 会 问 该 如 何在 HBase 中 存储 目 己 的 数据 。 通 
常情 况 下 ，HBase 中 的 表 可 以 设计 为 高 表 (tall-narrow table) 和 宽 表 
(flat-wide table) 两 类 。 前 者 指 表 中 列 少 而 行 多 ， 后 者 则 正好 相反 。 根 
据 之 前 我 们 介绍 过 的 KeyValue 信息 的 筛选 粒度 信息 ， 用 户 应 当 尽 量 


将 需要 查询 的 维度 或 信息 存储 在 行 键 中 ， 因 为 用 它 筛选 数据 的 效率 最 


此 外 ，HBase 只 能 按 行 分 片 ， 因 此 高 表 更 有 优势 。 设 想 用 户 将 一 个 
其 所 有 电子 邮件 都 存在 一 行 中 。 这 在 大 部 分 情况 下 都 是 合适 的 ， 但 也 
有 些 人 的 收 件 箱 中 有 大 量 的 邮件 。 大 到 一 行 数据 束 超 过 了 最 大 HFile 
的 限制 ， 此 时 这 个 HFile 无 法 拆 分 ， 同 时 也 导致 region 无 法 在 合适 的 位 
置 进行 拆 分 。 


解决 此 问题 的 更 好 的 方法 古 把 一 个 用 户 的 每 个 电子 邮件 部 存在 单 
独 的 一 行 中 ， 而 行 键 可 以 是 用 户 ID (userId) 和 消息 ID 
(messageId) 的 组 合 ， 如 图 9-1 所 示 ， 用 户 会 发 现 : 在 磁盘 上 ， 不 
管 消息 ID (messageld) 在 列 限 定 符 还 是 在 行 键 中 ， 每 个 单元 格 都 仍 
然 包含 单个 电子 邮件 的 所 有 消 轧 。 以 下 是 宽 表 在 磁盘 上 的 数据 分 布 ， 
HG Ep iil: 


< userId> : < colfam> : < messageId> : < timestamp> : < email- 
message> 


12345 : data : 5fc38314-e290-aeb5da5fc375d : 1307097848 : "Hi 
Lars,..." 
12345 : data : 725aae5f-d72e-f90F3F070419 : 1307099848 : 

W 


"Welcome,and ... 
: data : cc6/775b3-f249-c6dd2b1a7467 : 1307101848 : "To Whom 


: data : dchee495-6d5e-6ed48124632c : 1307103848 : "Hi, how 


以 下 是 高 表 在 磁盘 上 的 数据 布局 : 


< userId>-< messageId> : < colfam> : < qualifier> : < timestamp> : 
< email- message> 


12345-5fc38314-e290-aebda5fc375d : data : : 1307097848 : "Hi 
Lars,..." 

12345-725aae5f -d72e-f90F3fF070419 : data : : 1307099848 : 
"Welcome,and ..." 

12345-cc6775b3-fF249-c6dd2b1a7467 : data : : 1307101848 : "To Whom 
Dt san 


12345 -dcbee495-6d5e-6ed48124632c : data : : 1307103848 : "Hi, how 


are 24." 


以 上 布局 使 用 了 空 限定 符 〈 参 见 5.1.3 节 ) 。 消 息 ID 被 移动 到 左 
边 ， 查 询 数据 时 它 的 筛选 作用 也 更 显著 ， 这 样 每 个 电子 邮件 占用 一 
行 。 最 后 这 个 表 更 容易 被 拆 分 ， 查 询 时 用 户 筛选 数据 也 更 有 效率 (更 
优 的 筛选 粒度 ) 。 


9.1.3 ”部 分 键 扫描 


HBase 的 扫描 功能 和 基于 HTable 的 API 更 适合 在 高 表 上 往 选 数 
ae i 可 以 通过 只 包含 部 分 键 的 扫描 检索 数据 ， 且 同时 不 丢失 查询 
ALE o 


ALAMOS, APREA ae RA T o 而 之 前 的 例 
子 是 把 一 个 用 户 所 有 的 邮件 都 放 在 了 一 行 数据 中 ， 这 样 一 个 用 户 的 收 
件 箱 束 是 一 行 数据 ， 同 时 取 一 行 数据 时 束 能 得 到 所 有 邮件 的 内 容 。 
ae eae 户 收 件 箱 中 的 电子 邮件 消 轧 。 取 数据 时 需要 使 用 行 健 来 匹 

JID ° 


使 用 高 表 的 例子 中 ， 消 息 ID 在 行 键 中 作为 用 户 ID 的 后 缀 。 如 果 用 
户 没有 这 两 个 ID 确切 的 值 ， 用 户 束 无 法 得 到 一 个 特定 的 电子 邮件 。 为 
避免 出 现 这 个 问题 ， 用 户 可 以 使 用 包含 部 分 键 的 扫描 : 用 户 可 以 将 扫 
A a 当然 结束 键 要 设置 
为 USerId + 1° 


扫描 的 范围 包括 起 始 键 ， 但 不 包括 终止 键 。 将 起 始 键 设 为 用 户 ID 
之 后 ，HBase 内 部 会 按 字 典 序 找到 第 一 个 行 键 的 位 置 《这 个 行 键 要 么 是 
起 始 键 ， 要 么 是 刚好 大 于 起 始 键 的 第 一 个 行 键 ) 。 由 于 表 中 没有 等 于 
起 始 键 的 行 键 ， 它 会 定位 扫 摘 下行 。 


< USerId>-< lowest-messageId> 


也 就 是 说 ， 它 是 排序 时 最 小 的 用 户 ID 和 消息 ID 的 组 合 。 此 后 扫描 
会 遍历 这 个 用 户 的 所 有 邮件 ， 同 时 用 户 可 以 从 行 键 中 抽取 消息 ID 。 


用 户 可 以 使 用 包 舍 部 分 键 的 扫描 机 制 设 计 出 非常 有 效 的 左 对 齐 索 
人 
上 今 索 Ye EF 


< userId>-< date>-< messageId>-< attachmentId> 
Wa, 
Box 
a 地 + 
| W | 


C 用 户 需要 保证 行 键 中 每 个 字段 的 值 都 被 补 齐 到 这 个 
字段 所 设 的 长 度 ， 这 样 字典 序 才 会 按 预 期 排列 〈 按 二 进 制 内 
容 比 较 ， 并 升序 排列 ) 。 用 户 需要 为 每 个 字段 设 定 一 个 固定 
的 长 度 来 保证 每 个 字段 比较 时 只 会 与 同 字段 内 容 从 左 向 右 比 
较 ， 否 则 可 能 出 现 溢出 的 情况 。® 


用 户 可 以 根据 查询 精度 的 要 求 ， 构 造 特定 的 起 始 键 和 终止 键 来 查 
询 所 需 的 数据 。 通 常情 况 下 ， 用 户 只 需 创 建 起 始 键 ， 同 时 将 终止 键 设 
置 成 相同 的 键 ， 并 在 第 一 个 字段 最 后 的 字 季 上 附加 一 点 数据 。 就 以 上 
例子 而 言 ， 用 户 可 以 把 起 始 键 设 为 12345 (可 以 假设 这 是 一 个 用 户 的 
ID) ， 终 止 键 设 为 123456。 


表 9-1 展 示 了 可 能 的 起 始 键 及 其 含义 
表 9-1 可 能 的 起 始 键 及 其 含义 


<userId> Zz J 的 所 有 消息 


<USerId>-<date> 


<userId>-<date>-<messageld> 2 a 期 下 的 全 部 消息 


<userId>-<date>-<messageId>- 扫 Z 了 户 ID 和 日 HH 下 的 个 消息 
<attachmentId> 5 件 


这 种 组 合 行 键 与 天 系 型 数据 库 系统 提供 的 功能 相似 ， 用 户 可 以 控 
制 每 个 字段 的 内 容 以 达到 控制 段 内 排序 的 目的 。 例 如 ， 用 户 可 以 把 
long 值 类 型 的 数据 (如 Linux 时 间 ) 转化 为 位 形式 ， 这 样 可 以 让 数据 
按 日 期 降序 排列 。 此 外 还 有 一 种 转换 方式 : 


Long.MAX_VALUE - < date-as-long> 


这 样 可 以 反 转 日 期 的 排序 ， 并 保证 时 间 字 段 值 是 降序 排列 的 。 


在 以 上 例子 中 ， 用 户 可 以 把 日 期 字段 放 在 行 键 后 。 这 只 二 一 种 组 
合 方式 ， 如 果 用 户 不 需要 按 日 期 排序 来 得 询 数据 ， 则 可 以 将 这 个 字段 
设 为 其 他 合适 的 内 容 。 


ed, 

一 人 之 前 我 们 采用 的 组 合 键 看 上 去 是 一 种 通用 的 优秀 方 
法 ， 但 其 原子 性 是 一 个 很 突出 的 问题 。 由 于 一 个 收 件 箱 中 的 
数据 现在 分 布 在 多 行 中 ， 所 以 不 可 能 在 一 个 简单 操作 中 修改 
一 个 收 件 箱 的 全 局 属性 。 如 果 用 户 不 需要 一 次 修改 整个 收 件 
箱 中 所 有 邮件 的 消息 ， 之 前 我 们 提 到 的 高 表 设 计 就 非常 适 

合 。 但 如 果 用 户 有 这 种 修改 需求 ， 宽 表 可 能 更 为 适合 ， 因 为 
HBase 能 保证 数据 操作 的 行 级 原子 性 。 


9.1.4 分 页 

使 用 以 上 方法 ， 用 户 可 以 很 方便 地 遍历 查询 数据 子 集 的 行 。 原 理 
与 之 前 介绍 的 类 似 ， 用 户 可 以 设 定 起 始 键 和 终止 键 来 限制 要 扫描 的 范 
。 同 时 用 户 可 以 在 客户 端 添 加 offset Mlimit 参数 来 盘 选 数据 。 


a 


te 上 

一 人 用 户 可 以 使 用 4.1.3 节 中 “分 页 过 滤器 
(PageFilter) ”或 “ 列 分 页 过 滤器 
(ColumnPaginationFilter) ” 提 到 的 功能 来 实现 分 
页 。 本 市 提 到 的 方法 重点 阐述 如 何 使 用 键 设计 来 达到 分 页 的 
效果 。 

但 如 果 纯 粹 只 是 简单 分 页 ， 因 为 列 分 页 过 滤器 可 以 避免 
传输 多 余数 据 ， 所 以 其 仍 是 被 推荐 使 用 的 方式 。 


AAA GU T ° 
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2. 跳 过 offset 数目 的 行 。 

3. 读 取 limit 数目 的 行 ， 并 返回 给 上 层 应 用 。 
4. 关闭 扫描 器 。 


在 收 件 箱 应 用 中 ， 可 以 对 一 个 用 户 的 所 有 邮件 进行 分 页 。 假 设 通 
常情 况 下 一 个 用 户 的 收 件 箱 中 有 几 百 封 邮 件 ， 一 般 他 只 会 查阅 前 面 几 
封 ， 如 前 50 封 ， 那 么 余下 的 邮件 需要 通过 单 击 Next 按 钮 加 载 下 一 页 。 


客户 端 可 以 把 起 始 行 设 为 用 户 ID， 同 时 将 结束 行 设 为 用 户 ID+1。 
然后 使 用 上 面 提 到 的 方法 ， 当 offset 为 0 时 ， 用 户 可 以 读 取 50 封 邮 
件 。 当 用 户 单 击 Next 按 钮 时 ，offset 设 为 50 并 跳 过 前 50 行 ， 并 返回 第 
51~1007F ° 


当 行 数 很 少时 ， 这 种 方法 可 行 。 但 是 ， 当 需要 对 几 千 行 数据 进行 

分 页 时 ， 就 需要 采用 其 他 方法 了 。 用 户 可 以 添加 一 个 序列 ID 到 行 链 中 

来 帮助 起 始 键 定位 到 对 应 偏 移 量 的 位 置 。 用 户 也 可 以 在 行 健 中 使 用 日 

期 字段 。 如 果 用 户 使 用 Unix 时 间 ， 则 可 以 计算 上 一 次 扫 朱 午夜 的 最 后 

aoe 。 这样 用 户 可 以 重 者 扫 摘 前 一 天 的 数据 来 决定 具体 癌 用 户 返 
哪些 内 容 。 


通过 不 同 的 行 键 设计 ， 用 户 可 以 有 很 多 方式 来 实现 子 集 扫 搞 和 分 
页 ， 例 如 ， 我 们 在 前 面 收 件 箱 应 用 的 例子 。 使 用 之 前 由 用 户 ID 和 日 期 
组 合 的 行 键 ， 可 以 让 邮件 按时 间 逆 序 排列 ， 从 而 使 最 痢 的 邮件 最 先 被 
读 取 到 。 但 是 如 果 用 户 要 完全 按照 其 他 字段 排序 ， 并 在 不 同 的 排序 方 
式 中 转换 查询 方式 ， 则 用 户 可 以 采用 9.3 节 中 介绍 的 方法 。 


9.1.5 ”时间 序列 


当 处 理 流 式 事件 时 ， 最 常见 的 数据 束 是 按时 间 序 列 组 织 的 数据 。 
这 些 数据 可 能 来 自 电 网 的 一 个 传感器 、 一 个 股票 交易 软件 或 一 个 信息 
化 的 监控 系统 。 这 些 数 据 的 突出 特点 是 它们 的 行 键 都 代表 了 事件 发 生 
的 时 间 。 由 于 HBase 的 数据 组 织 方式 ， 这 样 的 数据 在 存储 时 会 出 现 一 个 


问题 : 这 些 数据 会 被 有 序 存 储 到 一 个 特定 的 范围 内 ， 也 就 是 一 个 有 特 
定 起 始 键 和 停止 键 的 region 中 。 


由 于 一 个 region 只 能 由 一 个 服务 融 管 理 ， 所 以 所 有 的 更 新 都 会 集中 
在 一 台 服 务 器 上 。 这 会 导致 系统 产生 读 写 热点 ， 并 由 于 写 入 数据 过 分 
集中 而 导致 整个 系统 性 能 下 降 。 


要 解决 这 个 问题 ， 用 户 需要 想 办 法 将 数据 分 散 到 所 有 的 region 服 务 
项 上 去 。 有 很 多 方法 可 以 达到 这 个 目的 ， 例 如 ， 在 行 键 前 添加 一 个 不 
连续 的 前 级 。 通 党 情况 下 有 如 下 远 择 。 
salting 方 式 


用 户 可 以 使 用 salting 前 绥 来 你 证 数据 分 散 到 所 有 region 服务 器 。 例 
I]: 


byte prefix =(byte)(Long.hashCode(timestamp)% < number of region 
servers>); 


byte[] row key = 
Bytes.add(Bytes.toBytes(prefix), Bytes.toBytes(timestamp) ; 


这 个 公式 将 产生 足够 的 前 级 数 以 确保 将 数据 分 散 到 所 有 region 服务 
故 中 去 。 当 然 ， 这 个 公式 假定 服务 絮 数 目 固定 ， 如 果 用 户 的 集群 规模 
可 能 扩大 就 应 当 将 前 级 数 翻 倍 。 生 成 的 行 侵 可 能 如 下 : 


Omyrowkey -1, imyrowkey-2, 2myrowkey-3, Omyrowkey -4, 1myrowkey-5, \ 
2myrowkey-6,... 


当 键 被 排序 之 后 并 发 送 到 对 应 的 region 时 ， 它 们 的 顺序 如 下 : 


Omyrowkey -1 
Omyrowkey -4 


imyrowkey -2 
imyrowkey -5 


换 句 话说 ，9myrowkey-1 和 gmyrowkey-4 这 两 条 更 新 操作 会 被 
送 到 同一 个 region (假设 以 0 开头 的 数据 还 没有 跨 多 个 region， 不 然 数 据 
会 更 分 散 ) ， 同 时 1myrowkey-2 和 1myrowkey-5 会 被 送 到 另 一 个 
region ° 


这 样 做 的 缺点 是 当 用 户 要 扫描 一 个 连续 的 范围 时 ， 可 能 需要 对 每 
region 服务 絮 都 发 起 请 求 (因为 之 前 连续 的 数据 ， 现 在 已 经 分 散 到 不 
同 的 服务 器 中 ) 。 这 样 也 会 带 来 好 处 ， 用 户 可 以 多 线程 并 行 地 读 取 数 
ushered 些 类 似 于 一 个 小 规模 的 MapReduce 作 业 ， 这 样 查询 的 吞吐 量 会 
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使 用 场景 : Mozilla Socorro 


Mozilla 为 Firefox 和 Thunderbird 建 立 了 一 个 名 为 Socorro 
2 的 崩溃 报告 系统 ， 这 个 系统 用 来 存储 用 户 报告 的 程序 异 
常 及 相 天 信息 。 这 些 报告 随后 会 补 Mozilla 开 发 小 组 用 来 优 
化 他 们 的 软件 ， 从 而 让 他 们 的 软件 产品 可 以 在 不 同 的 平台 
和 配置 下 运行 得 更 为 稳定 。 


这 个 项 目 是 开源 的 ， 代 码 可 以 在 网 上 下 载 ， 它 使 用 
Python 客户 端 通过 Thrift 与 HBase 集 群 进行 通信 。 下 面 的 例 
子 展示 了 (在 写 这 本 书 时 客户 端 如 何在 扫 搬 时 处 理 包装 
过 之 后 的 键 。 


def merge_scan with_prefix(self,table,prefix,columns): 


A generator based iterator that yields totally ordered rows 
starting with a 

given prefix. The implementation opens up 16 scanners(one for 
each leading 

hex character of the salt)simultaneously and then yields the next 
row in 


order from the pool on each iteration. 


iterators = [] 
next_items_queue = [] 
for salt in '0123456789abcdef': 
salted_prefix = "%s%s" %(salt, prefix) 
scanner = 
self.client.scannerOpenwithPrefix(table, salted_prefix, columns) 


iterators.append(salted_scanner_iterable(self.logger,self.client, 
self ._make_row_nice, salted_prefix, scanner ) ) 
# The i below is so we can advance whichever scanner delivers us 
the polled 
# item. 
for i,it in enumerate(iterators): 
try: 
next = it.next 
next_items_queue.append([next(),i,next] ) 
except StopIteration: 
pass 
heapq.heapify(next_items_queue) 


while 1: 
try: 
while 1: 
row_tuple, iter_index,next = s = next_items_queue[0] 
#tuple[1] is the actual nice row. 
yield row_tuple[1] 
s[0] = next() 
heapq.heapreplace(next_items_queue, s) 
except StopIteration: 
heapq.heappop(next_items_queue) 
except IndexError: 
return 


在 Python 代 码 按照 需求 数量 创建 了 扫描 妖 ， 它 们 与 相 
应 的 包装 前 缀 对 应 ， 在 这 是 总 共 16 个 不 同 的 字符 中 的 一 
个 。 注 意 这 里 使 用 heapq 类 来 合并 实际 的 数据 和 结果 集 的 
全 局 排序 。 


字段 交换 /提升 权重 


使 用 9.1.3 太 介绍 的 方法 ， 用 户 可 以 将 时 间 礁 字段 移 开 或 添加 其 他 
字段 作为 前 级 。 这 样 做 其 实 古 想 利用 组 合 行 健 的 思想 来 让 连续 递增 的 
时 间 玲 在 行 键 中 的 位 置 从 第 一 位 变 到 第 二 位 。 


如 有 条 用户 设计 的 行 键 已 经 包含 多 个 字段 了 ， 则 可 以 调整 它们 的 位 
置 。 如 有 果 行 键 只 包含 了 时 间 崔 ， 则 用 户 应 当 将 其 他 字段 从 列 键 或 值 中 
提取 出 来 ， 然 后 放 到 行 键 的 前 端 。 


将 时 间 玲 从 组 合 键 的 左边 癌 右 移动 也 有 缺点 : 用户 能 访问 数据 ， 
尤其 是 时 间 范 围 内 的 数据 ， 并 使 用 一 个 给 定 的 字段 。 


使 用 场景 : OpenTSDB 


OpenTSDB © 项 目 提供 了 一 个 时 间 序 列 数据 库 ， 该 数 
据 库 用 来 存储 由 外 部 代理 程序 收集 的 服务 器 和 服务 的 各 项 
监控 指标 (metric) 。 所 有 数据 都 存储 在 HBase 中 ， 用 户 可 
以 使 用 UI 来 查询 各 项 指标 ， 并 进行 实时 组 合 抽样 。 


表 模 式 (schema) 就 把 监控 指标 ID 放 在 了 行 链 中 ， 并 
形成 了 以 下 结构 : 


< metric-id>< base-timestamp>... 


HEP AR ARS Hina, CIDRE 
段 很 分 散 ， 所 以 所 有 的 更 新 操作 也 束 被 分 散 开 了 ， 用 户 最 
后 得 到 了 与 salt 表 绥 类 似 的 效 朱 : 读 写 操作 都 分 艇 到 了 各 
个 不 同 的 监控 指标 ID 下 。 


这 种 方式 很 适合 主要 按 行 键 前 面部 分 查询 的 系统 。 如 
上 例 OpenTSDB 中 的 行 键 结构 ， 可 以 很 方便 地 为 用 户 在 UI 
中 提供 按时 间 顺 序 显示 一 个 或 多 个 用 户 选 择 的 监控 指标 的 
最 近 结 果 。 


随机 化 
另 一 种 完全 不 同 的 方式 是 将 行 键 随机 化 ， 例 如 : 


byte[] row key = MD5(timestamp) 


AR FAMDS.Z RA BT ES BE EFT BE DE PT region ARH aE ° 
对 于 时 间 连 续 的 数据 ， 这 种 方法 明显 不 是 个 好 方法 。 因 为 随机 化 之 
Ja, APRA BE IZ TAN TST 。 


另 一 方面 ， 由 于 用 户 可 以 用 散 列 的 方式 重新 生成 行 键 ， 随 机 化 的 
方式 很 适合 每 次 只 读 取 一 行 数据 的 应 用 。 如 果 用 户 的 数据 不 需要 连续 
扫描 而 只 需 随 机 读 取 ， 用 户 束 可 以 使 用 这 种 策略 。 


简单 总 结 以 上 方法 后 ， 用 户 会 发 现在 优化 读 写 性 能 的 同时 找到 正 
确 的 平衡 点 并 不 是 一 件 简 单 的 事情 。 它 关系 到 用 户 的 数据 访问 模式 ， 
该 模式 最 终 决 定 了 用 户 如 何 设计 行 键 的 结构 。 图 9-3 展 示 了 不 同 解决 方 
案 对 读 写 性 能 的 影响 。 


顺序 键 {df salt (vy Be 提升 字段 键 


图 9-3 ”寻找 顺序 读 写 性 能 的 平衡 点 


使 用 Salt 前 绥 或 将 茶 些 不 羡 连续 取 值 的 主键 字段 提前， 可 以 使 分 胡 
写 压 力 并 提高 写 入 性 能 ， 同 时 扫描 连续 的 键 子 集 也 可 以 提高 读 性 能 。 
但 是 ， 如 采用 户 只 需要 随机 读 取 数据 ， 那 么 随机 行 链 束 更 有 用 ， 因 为 
它 能 完全 避免 某 个 region 成 为 读 写 热点 。 


9.1.6 ”时 间 顺 序 关 系 


以 上 数据 都 会 按照 产生 的 时 间 顺 序 以 独立 行 插 入 到 HBase 中 ， 但 十 
也 可 以 使 用 另 一 种 方式 ， 即 将 新 的 事件 以 发 生 时 间 为 列 进行 插入 。 因 
为 列 在 HBase 中 是 按 列 族 组 织 的 ， 所 以 每 个 列 族 下 的 列 可 以 作为 一 个 辅 
助 索引 单独 进行 排序 ， 如 同 RDBMS。 虽 然 这 不 是 推荐 的 设计 模式 ， 但 
少量 的 索引 可 能 正定 用 户 所 需要 的 。 


以 之 前 的 收 件 箱 应 用 为 例 ， 它 将 用 户 的 所 有 邮件 存在 一 行 中 。 由 
于 用 户 需 要 按照 收 件 顺 序 显 示 邮 件 ， 同 时 也 有 可 能 需要 按照 题目 等 顺 
I a 


‘eh 

一 人 记 住 ， 不 要 为 一 张 表 设 置 过 多 的 列 族 ， 特 别 是 当 数 
据 量 大 的 列 族 和 数据 量 小 的 列 族 混用 (大 小 指 的 是 存储 的 数 
据 量 ) ， 用 户 可 以 把 收 件 箱 的 邮件 存储 在 一 张 表 中 ， 同 时 把 
辅助 索引 存在 另 一 张 表 中 。 缺 点 是 这 样 用 户 不 能 保证 修改 丙 
张 表 的 原子 性 (HBase 只 保证 行 级 原子 性 ) 。 同 时 请 参 9.3 节 
来 克服 这 个 限制 。 


用 户 首先 要 决定 存储 数据 的 主要 顺序 是 什么 ， 也 就 是 说 ， 用 户 大 
多 数 情况 下 会 按 什么 顺序 检索 收 件 箱 数 据 。 假 设 按照 收 件 顺 序 则 可 以 
按 之 前 提 到 过 的 时 间 降 序 排列 ， 这 样 用 户 就 需要 将 邮件 的 时 间 戳 反 序 
排列 来 达到 按时 间 逆 序 排列 的 目的 。 


Long.MAX_VALUE - < date-as-long> 


邮件 内 容 存储 在 主要 的 列 族 下 ， 索 引 被 单独 存储 在 另 一 个 列 族 
下 。 用 户 可 以 把 邮件 题目 提取 出 来 并 添加 到 列 键 的 前 面 来 建立 辅助 索 
。 如 有 果 用 户 需 要 对 题目 进行 降序 排列 ， 则 需要 再 额外 添加 一 个 列 
ie 。 


为 了 避免 太 多 的 列 族 ， 用 户 可 以 把 所 有 辅助 索引 存储 在 一 个 单独 
的 列 族 下 ， 同 时 列 键 ( 列 名 ) 的 最 左 段 使 用 索引 ID 这 个 前 组 来 表示 不 
同 的 排序 ， 例 如 ，idx-subject-desc 和 idx-to-asc 等 。 接 下 来 
用 户 要 填 入 实际 的 排序 值 。 单 元 格 的 值 是 主 索引 的 键 ， 同 时 主 索 引 中 
存储 着 消息 的 信息 。 用 户 需要 从 以 下 3 种 存储 方式 中 选择 一 种 : MER 

( 主 索 引 ) 中 读 取 消息 的 内 容 ， 只 展示 辅助 索引 中 存储 的 信息 ， 或 把 
消息 中 的 信息 元 余地 存储 到 辅助 索引 中 从 而 避免 在 主 信息 源 中 进行 随 
机 读 取 。 反 苑 式 化 在 HBase 中 十 分 锅 见 ， 它 可 用 于 减少 读 取 时 间 ， 从 而 
大 大 提高 用 户 响应 速度 。 


将 以 上 的 表 设计 模式 付 诸 实 施 可 以 得 到 如 下 表 : 


12345 : data : 5fc38314-e290-ae5da5fc375d : 1307097848 : 
Lars,..." 


12345 : data : 725aae5f-d72e-f90F3F070419 : 1307099848 : 
"Welcome,and ..." 


: data : cc6/775b3-f249-c6dd2b1a7467 : 1307101848 : "To Whom 


: data : dcbhee495-6d5e-6ed48124632c : 1307103848 : "Hi, how 


12345 : index : idx-from-asc-mary@foobar.com : 1307099848 : 
725aae5f- d72e... 
12345 : index : idx-from-asc-paul@foobar.com : 1307103848 : 
dcbee495- 6d5e... 
12345 : index : idx-from-asc-pete@foobar.com : 1307097848 : 
5fc38314- e290... 


12345 : index : idx-from-asc-sales@ignore.me : 1307101848 : 
cc6775b3- £249... 


12345 : index : idx-subject-desc-\xa8\x90\x8d\x93\x9b\xde : 
1307103848 : dcbee495-6d5e-6ed48124632c 

12345 : index : idx-subject-desc-\xb7\x9a\x93\x93\x90\xd3 : 
1307099848 : 725aae5f-d72e-f90F3f070419 


在 前 面 这 段 代 码 中 ， 一 个 索引 (idx-from-asc ) 按照 电子 邮件 
地 址 升序 排列 ， 另 一 个 索引 (idxsubject-desc ) 按照 题目 降序 排 


列 。 同 时 题目 按照 位 反 序 (bit-inversed) 排列 以 达到 降序 排列 的 目的 ， 
所 以 其 内 容 已 经 不 可 读 了 。 例 如 : 


% String s = "Hello,"; 
% for(int i = 0;i < s.length();i++){ 
print(Integer.toString(s.charAt(i)% OxFF,16)); 


} 
b7 9a 93 93 90 d3 


所 有 的 索引 值 都 存储 在 index 列 族 下 ， 并 使 用 之 前 的 前 级。 客户 
端 可 以 读 取 整个 列 族 中 并 缓存 其 内 容 ， 从 而 可 以 快速 转换 邮件 排序 。 
在 数据 量 巨 大 的 情况 下 ， 用 户 可 以 读 出 索引 (idx-subject-desc ) 
的 前 10 列 来 展示 按 标题 排序 的 前 10 封 邮件 。 使 用 行内 扫描 (参见 3.5.3 


节 ) 可 以 实现 辅助 索引 分 页 功能 。 另 一 个 选择 是 使 用 列 分 页 过 滤器 
(ColumnPaginationFilter ) ， 并 与 列 前 缀 过 滤器 
(ColumnPrefixFilter ) 组 合 来 按 页 遍历 索引 。 


9.2 ”高 级 模式 


到 目前 为 止 ， 我 们 已 经 讨论 了 怎样 利用 所 提供 的 表 模 式 把 数据 映 
射 到 HBase 文 持 的 面 问 列 的 存储 结构 中 。 用 户 需要 设计 行 键 和 列 键 ， 以 
优化 应 用 的 数据 访问 性 能 。 


每 列 的 值 都 是 可 以 存储 为 任意 字 市 数组 的 实际 数据 存储 结 点 。 这 
种 可 以 随意 添加 列 的 存储 模式 让 用 户 设 计 修改 客户 端 程序 时 拥有 更 多 
自由 发 挥 的 余地 ， 当 然 也 有 些 使 用 场景 需要 更 正式 、 有 更 多 功能 且 可 
以 更 新 的 序列 化 API， 此 时 每 列 的 值 都 可 以 表示 更 复杂 的 、 山 套 的 结 


构 。 


可 能 的 解决 办 法 包括 已 经 讨论 过 的 序列 化 包 一 详情 请 查看 6.1 
节 ， 以 下 是 一 些 例子 。 


Avro 
HAvroBase @ 是 一 个 使 用 Avro 在 每 列 中 存储 复杂 记录 的 典型 项 目 。 


它 使 用 Avro 的 接口 定义 语言 (缩写 为 IDL) 来 定义 实际 的 模式 ， 这 个 模 
式 被 用 于 在 表 的 任意 列 中 存储 按 Avro 形 式 序列 化 的 记录 。 


Protocol Buffer 


与 Avro 类 似 ， 用 户 可 以 用 Protocol Buffer 的 IDL 来 定义 一 个 外 部 模 
式 ， 这 个 模式 被 用 来 序列 化 复杂 的 数据 结构 到 HBase 的 列 中 。 


这 种 方法 本 质 上 有 是 为 用 户 提 供 一 种 可 以 定义 初始 模式 的 语言 ， 然 


后 用 户 可 以 通过 增加 或 者 删除 字段 来 更 新 这 个 模式 。 序 列 化 API 能 够 使 
用 新 模式 来 读 取 旧 模 式 ， 缺 失 的 字段 被 忽略 或 者 用 默认 值 来 填充 。 


9.3 ”辅助 索引 


尽管 HBase 没 有 为 辅助 索引 提供 原生 文 择 ， 但 是 有 些 应 用 场景 仍 需 
要 使 用 辅助 索引 。 通 第 的 需求 是 用 户 能 够 通过 主 坐 标 〈 行 键 、 列 族 和 
列 限定 符 ) 来 查找 一 个 单元 格 ， 也 可 以 通过 一 个 其 他 类 型 的 坐标 来 进 
行 查 找 。 此 外 ， 用 户 可 以 按照 辅助 索引 的 顺序 从 主 表 扫 描 数 据 。 


与 天 系 型 数据 库 系统 中 的 索引 类 似 ， 辅 助 索 引 存 储 了 一 个 新 坐标 
和 现 有 的 坐标 之 间 的 映射 关系 。 以 下 列 出 了 一 些 可 行 的 解决 方案 。 


由 客户 端 管理 索引 


把 责任 完全 转移 到 应 用 层 的 典型 做 法 是 把 一 个 数据 表 和 一 个 或 
者 多 个 ) 查找 /映射 表 结 合 起 来 。 每 当 程序 写 数据 表 时 ， 它 也 同时 更 新 
映射 表 《也 被 称 为 辅助 索引 表 ) 。 读 数据 时 可 以 直接 在 主 表 中 进行 查 
询 ， 从 辅助 索引 表 中 先 查 找 原 表 行 键 ， 再 在 原 表 中 读 取 实际 数据 。 


这 种 做 法 既 有 优 总 也 有 缺点。 首先 ， 优 点 是 整 个 逻辑 都 由 客户 端 
代码 处 理 ， 用 户 可 以 按照 需求 设计 映射 和 关系。 不 过 这 样 做 的 缺点 更 
多 ， 由 于 HBase 中 不 能 保证 跨行 操作 的 原子 性 ， 例 如 ， 以 事务 的 角度 来 
看 ， 用 户 不 能 保证 主 表 和 依赖 表 的 一 致 性 。 用 户 可 以 使 用 定期 修 草 工 
作 来 部 分 解决 这 个 问题 ， 例 如 ， 使 用 MapReduce 程 序 来 扫描 表 ， 删 除 过 
时 的 条 目 ， 或 增加 缺失 的 条 目 。 


缺少 事务 的 文 持 可 能 导致 数据 被 存储 在 数据 表 中 ， 但 是 在 辅助 索 
引 表 中 没有 相应 的 上 映射。 这 种 情况 可 能 发 生 在 主 表 被 更 新 后 且 索 引 表 
被 成 功 写 入 前 ， 如 果 这 段 时 间 出 现 了 任何 导致 操作 失败 的 问题 都 会 使 
辅助 索引 和 主 表 不 一 人 尾 。 这 个 问题 可 以 通过 先 写 辅助 索引 表 ， 在 操作 
的 最 后 再 写 数 据 表 来 级 解 。 如 琳 在 这 个 过 程 中 有 任何 操作 失败 ， 束 会 
出 现 孤 立 的 映射 ， 不 过 它们 很 容易 被 异步 的 定期 修剪 工作 删除 掉 。 


用 户 可 以 目 由 设计 主 索 引 和 辅助 驼 引 之 间 的 映射 天 系 时 ， 必 须 接 


受 的 缺点 是 用户 需 要 实现 所 有 存储 和 查找 数据 必需 的 方法 。 这 种 情况 
下 ， 需 要 定义 额外 的 规则 来 让 应 用 访问 正确 的 表 ， 例 如 : 


myrowkey-1 
@myrowkey-2 


第 一 个 键 表示 直接 在 数据 表 中 查找 ， 但 是 第 二 个 使 用 了 “@” 前 缀 的 
键 则 表示 需要 通过 一 个 辅助 索引 表 来 完成 一 次 映射 。 表 的 名 字 也 可 能 
需要 通过 数字 编码 或 添加 前 绥 来 区 分 ， 另 一 种 做 法 是 ， 在 应 用 程序 中 
硬 编码 ， 并 随 模式 改变 而 变更 需求 。 


带 索 引 的 事务 型 HBase 


开源 的 带 索 引 的 事务 型 HBase (Indexed-Transactional HBase， 简 称 
为 ITHBase) ME 提供 了 一 个 不 同 的 解决 方案 。 它 扩展 了 HBase， 并 
增加 了 特殊 的 客户 端 和 服务 需 端 类 的 实现 。 


最 核心 的 扩展 是 增加 了 用 来 保证 所 有 的 辅助 索引 更 新 操作 一 致 性 
的 事务 功能 。 在 此 基础 之 上 上， 提供 了 一 个 可 以 客户 端 类 
IndexedTableDescriptor ， 这 个 类 定义 了 一 个 数据 表 的 辅助 索引 
文 持 。 


大 多 数 客户 端 和 服务 器 端的 类 都 被 添加 了 索引 文 持 功能 的 类 替换 
掉 了 。 例 如 ， 在 客户 端 上 ，HTable #¥IndexedTable 替换 掉 。 它 有 
一 个 新 方法 叫做 getIndexedScanner() ， 该 方法 能 让 用 户 按 辅助 索 
引 的 顺序 在 表 中 取得 数据 。 


以 上 所 述 的 客户 端 管 理 索引 在 单独 的 表 中 存储 主键 和 辅助 键 之 间 
的 映射 关系 ， 与 之 不 同 的 是 ， 这 些 操作 在 ITHBase 中 被 目 动 处 理 ， 同 时 
主 表 与 辅助 索引 表 之 间 的 关系 由 相应 的 描述 符 (descriptor) 定义 。 结 
eee a 这 个 方案 提供 了 一 个 HBase 辅 助 索引 的 完全 实 
I, o 


它 的 缺点 是 可 能 不 文 持 最 新 可 用 的 HBase 版 本 ， 因 为 它 不 与 HBase 
绑 定 发 行 。 同 时 它 也 增加 了 同步 的 开销 ， 这 将 导致 性 能 的 下 降 ， 所 以 
需要 相应 的 基准 测试 验证 其 可 用 性 。 


带 索引 的 HBase 


在 HBase 中 增加 辅助 索引 的 另外 一 种 解决 方案 是 带 索 引 的 HBase 
(简称 为 IHBase) ®。 这 种 解决 方案 放弃 了 为 每 个 索引 使 用 单独 的 
表 ， 而 是 完全 在 内 存 中 维护 索引 。 当 一 个 region 第 一 次 打开 ， 或 者 一 个 

memstore 被 刷 写 到 人 磁盘 上 上 时， 用户 可 以 通过 扫描 整个 region 来 建立 索 


引 。 根 据 用 户 配 置 的 region 大 小 的 不 同 ， 这 个 操作 可 能 花费 大 量 的 时 间 
和 IO 资源 。 


当 磁 列 上 的 数据 有 索引 时 ， 内 存 中 数据 搜索 的 方式 如 下 : 它 直 接 
使 用 内 存 中 的 数据 来 搜索 索引 相关 的 详细 数据 。 这 个 方案 的 优点 征 索 
引 永远 都 是 同步 的 ， 并 且 不 需要 额外 的 事务 控制 。 


与 基于 表 的 索引 相 比 ， 使 用 这 种 方法 有 两 方面 不 同 。 一 方面 它 很 
快 ， 所 有 需要 的 索引 数据 都 在 内 存 中 ， 因 此 可 以 执行 很 快 的 二 分 查找 
来 定位 行 。 男 外 一 方面 ， 它 也 需要 大 量 额 外 的 堆 空 间 来 维护 索引 。 由 
于 用 户 的 需求 和 想 要 索引 的 数据 量 不 同 ，IHBase 有 时 并 不 能 建立 用 户 
需要 的 所 有 索引 。 


内 存 中 的 索引 包含 类 型 支持 ， 并 提供 了 更 细 粒 度 的 排序 和 更 高 效 
的 内 存 存 储 。 支 持 的 类 型 包括 BYTE 、CHAR 、SHORT 、INT 、LONG 
` FLOAT ` DOUBLE 、BIG_DECIMAL 、BYTE_ARRAY 和 
CHAR_ARRAY 。 数 据 总 是 以 升序 存储 。 如 果 需 要 按 降序 排列 ， 用 户 需 
要 像 前 文 所 述 的 把 值 按 位 反 转 。 


索引 的 定义 由 IdxIndexDescriptor 类 完成 ， 它 定义 了 数据 表 
人 该 类 型 来 和 目 于 上 面 的 列 


用 户 可 以 通过 IdxScan 类 来 按 索 引 访 问 数 据 ， 它 通过 定义 
Expression 来 扩展 正常 的 Scan 类 。 没 有 明确 表达 式 的 扫 摘 默认 是 
m a 。 表 达 式 提供 了 用 And 和 Or 来 构造 基本 的 布尔 逻辑 构 
造 3 列 H: 


Expression expression = Expression 
.or( 
Expression.comparison(column 
familyi, qualiferi, operatori, value1) 


.or( 
Expression.and() 
.and(Expression.comparison(column 
Family2,qualifer2,operator2, value2) ) 
.and(Expression.comparison(column 
Family3, qualifer3, operator3, value3) ) 


); 


例子 中 使 用 创建 者 模式 风格 的 辅助 方法 生成 一 个 结合 了 3 个 不 同 索 
引 的 复杂 表达 式 。 表 达 式 最 低级 别 的 操作 是 Comparison ， 它 允许 用 
户 指定 实际 索引 和 一 个 类 似 于 过 滤器 的 语法 来 选择 匹配 比较 值 和 运算 
符 的 值 。 表 9-2 列 出 了 可 能 选择 的 运算 符 。 


表 9-2 Comparison. Operator 可 选 值 


用 户 必须 指定 一 个 列 族 和 现 有 索引 的 限定 符 ， 人 否则 将 抛 出 
IllegalStateException =% ° 


Comparison 类 有 一 个 可 选 的 jncludeMissing 参数 ， 它 同 
4.1.3 节 的 “单列 值 过 滤器 (SingleColumnValueFilter ) ”中 所 描 
述 的 filterIfMissing 参数 类 似 。 用 户 可 以 使 用 这 个 参数 对 扫描 中 
应 返回 的 行进 行 微 调 。 


排列 顺序 由 在 表达 式 中 第 一 个 被 处 理 的 索引 来 定义 ， 而 其 他 索引 
则 被 用 来 和 第 一 个 索引 求 交集 (and) ， 或 者 求 并 集 (or) 。 换 句 话 


说 ， 只 有 使 用 相同 的 索引 时 ， 复 杂 表 达 式 的 排序 才 是 可 预见 的 。 


IHBase 相 较 于 ITHBase 的 好 处 羡 它 获得 了 相同 的 一 致 性 你 证 一 一 维 
护 基于 数据 表 中 已 存储 的 列 的 索引 的 一 致 性 一 一 但 是 ， 无 需 使 用 额外 
的 表 。 同 时 ， 它 具有 以 下 缺点 。 


它 的 入 侵 性 很 强 ， 因 为 它 需要 额外 的 JAR 文 件 和 配置 来 蔡 换 重要 的 
客户 端 类 和 服务 端 类 。 

它 需 要 额外 的 货源 ， 尽 管 它 用 内 存 交 换 了 额外 的 MO 需求 。 

它 在 按照 基于 辅助 索引 定义 的 排列 顺序 查询 数据 时 ， 其 需要 在 数 
据 表 上 做 随机 查找 。 

它 在 最 新 版 本 的 HBase 2 中 可 能 无 法 使 用 。 


协 处 理 器 


目前 也 有 一 些 方法 基于 协 处 理 器 来 实现 索引 方案 9” 。 使 用 协 处 理 
怖 框 织 提供 的 服务 器 端的 钩子 函数 可 以 实现 类 似 于 ITHBase 和 IHBase 的 
索引 ， 并 且 不 用 替换 任何 客户 端 类 和 服务 器 端 类 。 协 处 理 融 将 为 每 一 
个 region 载 入 索引 层 ， 并 维护 索引 。 

代码 可 以 利用 扫描 器 钧 子 透明 地 亿 历 一 个 正常 的 数据 表 ， 也 可 以 
遍历 这 张 表 上 的 索引 视图 。 索 引 的 定义 可 能 需要 存放 在 外 部 模式 中 ， 
并 由 一 个 协 处 理 器 基 类 读 取 ， 或 者 附加 在 一 个 列 族 的 属性 定义 中 。 


a 


| we ` 

FES 由 于 这 些 工 作 都 还 处 于 早期 阶段 ， 编 写本 书 时 可 能 
还 没有 太 多 相关 的 内 容 介绍 。 如 果 你 感 兴趣 ， 可 以 留意 在 线 
问题 跟踪 系统 以 查看 相关 更 新 。 


94 搜索 集成 


使 用 索引 用 户 可 以 按照 行 键 以 外 的 顺序 来 所 历数 据 表 。 但 用 户 仍 
然 受 限于 使 用 键 或 过 滤 絮 来 往 选 数据 ， 或 者 直接 所 历数 据 来 查找 所 需 
的 内 容 。 一 个 非常 普 志 的 需求 是 使 用 任意 关键 字 来 搜索 数据 ， 满 足 这 
种 需求 往往 需要 集成 一 个 完整 的 搜索 引擎。 


常见 的 选择 是 基于 Apache Lucene 的 解决 方案 ， 例 如 ， 使 用 Lucene 
或 者 Solr (一 个 基于 Lucene 的 高 性 能 的 企业 级 搜索 服务 器 2 ) 。 类 似 于 
索引 解决 方案 ， 以 下 是 一 系列 可 行 的 方法 。 


客户 端 管理 


客户 端 管 理 的 实现 需要 使 用 HBase 存 储 数 据 ， 同 时 使 用 MapReduce 

任务 来 建立 索引 ， 还 需 使 用 HBase 作 为 Lucene 的 后 台 存 储 。 另 一 种 实现 

方法 是 把 数据 表 的 更 新 也 转发 到 邻近 的 索引 服务 器 中 。 在 HBase 上 实现 

HBase 作 为 数据 的 存储 还 是 作为 索 
子 o 


一 个 不 错 的 客户 端 管理 解决 方案 的 实现 是 Facebook 的 收 件 箱 搜索 
系统 (Facebook inbox search) 。 以 下 是 其 大 致 模式 。 


a ， 即 每 个 用 户 在 搜索 表 中 都 有 一 个 单 
Np © 
列 是 消 妃 中 被 索引 的 词语 。 
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值 包括 附加 信息 ， 例 如 ， 词 组 在 文件 中 的 位 置 。 


这 个 模式 使 得 用 户 很 容易 在 收 件 箱 中 搜索 包含 特写 天 键 词 的 消 
息 。 布 尔 运算 符 ， 例 如 ，and 或 or ， 可 以 在 客户 端 逻 辑 中 实现 ， 并 用 
来 归并 找到 的 文件 列表 。 用 户 也 可 以 有 效 地 实现 输入 提示 人 查询， 用 户 
~ 搜索 将 找到 所 有 包含 以 用 户 输入 作为 前 级 的 词 
VER o 


Lucene 


独立 于 HBase 使 用 的 Lucene 或 者 其 派生 的 解决 方案 可 以 通过 
MapReduce 来 建立 索引 。 一 个 外 部 托管 的 项 目 ”提供 了 
BuildTableIndex 类 ， 这 个 类 以 前 是 HBase 中 contrib 包 的 一 部 分 。 该 
类 会 扫描 整 个 表 ， 并 建立 Lucene 索 引 ， 索 引 最 终 以 HDFS 上 的 目录 形式 


来 存储 ， 索 引 的 数量 取决 于 使 用 的 reducer 数 目 。 这 些 索 引 可 以 被 下 载 
到 基于 Lucene 的 服务 器 上 ， 并 且 使 用 类 似 于 Lucene 提 供 的 
MultiSearcher 类 来 进行 本 地 访问 。 


另外 一 种 方法 是 通过 运行 只 有 一 个 reducer 的 MapReduce 作 业 ， 或 者 
使 用 Lucene 中 的 索引 合并 工具 来 合并 多 个 索引 。 合 并 后 的 索引 通常 性 
能 更 好 ， 但 是 索引 的 建立 、 合 并 ， 以 及 最 后 能 够 提供 服务 所 需要 经 历 
的 时 间 将 更 长 。 


在 一 般 情 况 下 ， 这 种 方法 只 使 用 HBase 来 存储 数据 。 如 有 果 通 过 
Lucene 执 行 一 个 搜索 ， 通 常 只 返回 匹配 的 行 键 。 随 机 查找 数据 表 需 要 
显示 文档 。 如 采 碍 找 的 文档 数 很 多 ， 查 找 过 程 可 能 需要 相当 长 的 时 
间 。 一 个 更 好 的 解决 方案 是 把 搜索 与 存储 的 数据 直接 结合 起 来 ， 从 而 
避免 额 外 的 随机 碍 找 开销 。 


HBasene 


Hbasene © 选择 的 方法 是 直接 在 HBase 内 部 建立 搜索 索引 ， 同 时 为 
用 户 提 供 Lucene 的 API。 它 把 每 个 文档 的 字段 (field) >i (term) 存 
储 在 一 个 单独 的 行 ， 同 时 将 包含 这 个 词 的 文档 存储 在 这 一 行 的 列 中 。 


它 同 时 也 在 同一 张 表 中 存储 了 其 他 支持 Lucene 查 询 的 相关 信息 。 
它 实 现 了 一 个 Indexwriter ， 该 类 可 以 直接 把 文档 存储 在 HBase 表 
中 ， 就 像 使 用 正常 的 Lucene API 插 入 文档 一 样 。 下 面 是 一 个 HBasene 测 
试 类 的 例子 。 


oes static final String[] AIRPORTS = { 
"NYC" "JFK", "EWR" 
"SFO" "OAK" "gje" }; 


private final Map< String,List< Integer>> airportMap = 
new TreeMap< String,List< Integer>>(); 


protected HTablePool tablePool; 


protected void doInitDocs() throws 
CorruptIndexException, IOException { 
Configuration conf = HBaseConfiguration.create() 
HBaseIndexStore.createLuceneIndexTable("idxtbl",conf,true); 
tablePool = new HTablePool(conf, 10); 
HBaseIndexStore hbaseIndex = new 


HBaseIndexStore(tablePool, conf, 
"idxtbl"); 
HBaseIndexwriter indexWriter = new 
HBaseIndexwriter (hbaseIndex, "id" ) 
for(int i = 100;i >= 0;--i){ 
Document doc = getDocument(i); 
indexwriter .addDocument (doc, new 
StandardAnalyzer(Version.LUCENE_ 30)); 
} 
} 


private Document getDocument(int i){ 
Document doc = new Document(); 
doc.add(new Field("id","doc" + 
i,Field.Store. YES, Field.Index.NO)); 
int randomIndex =(int)(Math.random() * 7.0f); 
doc.add(new 
Field("airport",AIRPORTS[randomIndex],Field.Store.No, 
Field.Index.ANALYZED_NO_NORMS) ); 
doc.add(new Field("searchterm",Math.random() > 0.5f ? 
"always" : "never", 
Field.Store.NO, Field. Index.ANALYZED_NO_NORMS) ); 
return doc; 


} 


public TopDocs search() throws IOException { 
HBaseIndexReader indexReader = new HBaseIndexReader(tablePool, 
"idxtbl", 
ie )y 
HBaseIndexSearcher indexSearcher = new HbaseIndexSearcher 
(indexReader ); 
TermQuery termQuery = new TermQuery(new 
Term("searchterm", "always")); 
Sort sort = new Sort(new 
SortField("airport",SortField.STRING) ); 
TopDocs docs = this.indexSearcher.search(termQuery 
.createWeight (indexSearcher ),null, 25,sort, false); 
return docs; 


} 


public static void main(String[] args)throws IOException { 
doInitDocs(); 
TopDocs docs = search(); 
// use the returned documents... 


} 


这 个 例子 创建 了 一 个 简单 的 用 于 测试 的 索引 ， 并 在 其 上 执行 了 查 
询 。 用 户 可 能 注意 到 类 似 于 Lucene API 有 很 多 小 的 修改 和 不 同 ， 这 些 修 
改 是 为 了 文 持 以 HBase 为 后 台 的 索引 写 操作 。 
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心 ， 截 至 写本 书 的 时 候 ， 这 个 项 目 更 像 是 一 个 验证 可 行 
性 的 原型 系统 ， 而 不 是 一 个 已 经 可 以 作为 产品 使 用 的 实现 。 


协 处 理 器 


男 一 种 方法 实现 了 一 个 类 似 于 基于 Lucene 的 数据 查询 功能 的 数据 
表 ， 该 方法 目前 正在 开发 中 电 ， 并 基于 协 处 理 器 。 使 用 协 处 理 器 提供 
的 钩子 函数 来 维护 索引 ， 索 引 直 接 存 储 在 HDFS 上 “。 每 个 region 都 有 目 
己 的 索引 ， 通 过 搜索 分 布 在 所 有 region 上 的 索引 以 获取 完整 的 结果 。 


这 只 是 一 个 展示 协 处 理 顺 功能 的 例子 。 与 使 用 协 处 理 器 建立 辅助 
索引 类 似 ， 用 户 可 以 选择 存储 实际 驼 引 的 位 置 : 既 可 以 存储 在 另 一 个 
表 中 ， 也 可 以 存储 在 其 他 的 外 部 存储 空间 。 这 个 框架 提供 了 很 大 的 选 
择 余地 ， 用 户 实现 的 代码 可 以 按 自 己 的 需求 作出 选择 。 


95 事务 


讨论 HBase 事 务 看 起 来 有 点 违背 用 户 对 HBase 的 第 一 印象 。 但 是 ， 
辅助 索引 的 例子 展示 了 ， 在 一 些 应 用 场景 下 ， 用 户 可 以 对 HBase 提 供 的 
并 且 可 以 引入 一 些 在 传统 关系 型 数据 库 系 统 
常见 的 概念 。 


其 中 的 一 个 概念 就 古事 务 ， 传 统 关系 型 数据 库 通 党 能 够 提供 跨行 
和 跨 表 的 ACID 保 证 。 有 时 HBase 也 需要 这 些 保证 。 例 如 ， 更 新 数据 表 
和 对 应 的 辅助 索引 表 时 ， 束 需要 事务 来 保证 一 致 性 。 


通常 情况 下 ， 用 户 并 不 需要 事务 ， 因 为 范式 化 的 数据 模式 能 够 被 
转化 成 单个 表 的 存储 ， 所 以 此 时 不 需要 分 布 式 事务 的 支持 ， 同 时 也 不 
需要 为 保证 一 致 性 而 产生 额外 的 开销 。 但 是 ， 如 果 用 户 还 需要 一 致 性 
文 择 ， 以 下 是 几 种 可 选 的 解决 方案 。 


事务 型 HBase 


带 索 引 的 事务 型 HBase (Indexed Transactional HBase) 项 目 有 一 些 
取代 默认 客户 端 类 和 服务 端 类 的 扩展 类 ， 它 们 增加 了 跨行 甚至 跨 表 的 
事务 支持 。 在 region 服 务 絮 中 ， 更 准确 地 说 ， 每 个 region 都 保持 了 一 个 
事务 的 列表 。 该 列表 是 由 beginTransaction() 调用 初始 化 ， 并 且 
由 相应 的 commit( ) 调用 结束 。 每 次 读 写 操作 都 有 一 个 事务 ID， 以 保 
护 调用 不 受 其 他 事务 影响 。 


ZooKeeper 


HBase 运 行 时 需要 一 个 ZooKeeper 集 群 ， 它 在 集群 的 启动 中 扮演 着 
种 子 或 引导 启动 的 角色 。 有 一 些 可 用 的 模板 和 方法 展示 了 如 何 将 
ZooKeeper 作 为 一 个 事务 来 控制 后 端 。 例 如 ，Cages ( 
http://code.google.com/p/cages! ) 项 目 提 供 了 一 个 锁 的 抽象 概念 ， 即 跨 
多 个 资源 的 锁 ， 并 计划 增加 一 个 专门 的 事务 类 来 把 ZooKeeper 当 作 分 布 
式 协调 系统 使 用 。 


ZooKeeper 也 提供 了 一 个 能 够 被 用 于 实现 两 阶段 提交 协议 的 锁 方 
案 。 它 使 用 一 个 特定 的 znode 来 代表 事务 ， 并 且 每 个 参与 的 客户 站 对 应 
一 个 孩子 znode。 客 户 端 可 以 使 用 目 己 的 znode 标 志 目 己 在 事务 中 的 那 部 
分 古 成 芒 还 是 失败 0 其 他 客户 端 可 以 监控 同 级 的 znode， 并 采取 适当 的 
人 


9.6 MEIERS 


5.1.3 节 介绍 了 在 列 族 定 义 时 声明 的 布 隆 过 滤器 (Bloom filter) 语 
法 ， 并 指出 布 隆 过 滤器 在 某 些 特定 的 使 用 场景 中 更 有 意义 。 


使 用 布 隆 过 滤 郁 的 根本 原因 是 玖 认 机 制 决定 了 一 个 存储 文件 是 否 
包含 特定 的 受 限 于 可 用 块 索引 的 行 键 ， 同 时 这 个 索引 又 是 相当 粗 粒 度 
的 ， 该 索引 只 存储 了 文件 包 舍 块 的 开始 键 。 例 如 ， 系 统 使 用 玖 认 的 64 


KB 作为 块 大 小 ， 这 样 会 将 一 个 1 GB 的 存储 文件 分 成 16384 个 块 ， 与 索 
引 到 的 行 键 数 相同 。 


如 有 果 我 们 进一步 假设 每 个 单元 格 的 平均 大 小 是 200 字 节 ， 那 么 用 户 
将 处 理 存储 在 一 个 文件 中 的 超过 500 万 个 单元 格 。 如 果 用 户 随机 查找 一 
个 行 键 ， 则 这 个 行 键 很 可 能 处 在 两 个 块 开始 键 之 间 的 位 置 。 对 于 HBase 
来 说 ， 判 断 这 个 键 是 否 真 实 存在 的 唯一 方法 是 加 载 这 个 块 ， 并 且 扫 摘 
它 来 查找 这 个 键 。 


同时 以 下 情况 会 使 上 述 问题 要 得 更 复 洒 ， 对 于 一 个 典型 的 应 用 程 
序 来 说 ， 用 户 通 常会 以 一 定 速 率 更 新 数据 ， 这 将 导致 内 存 中 的 数据 被 
刷 写 到 磁盘 上 ， 并 且 之 后 系统 会 把 它们 合并 成 更 大 的 存储 文件 。 由 于 
minor 合 并 仅 合并 最 近 几 个 存储 文件 ， 直 到 合并 后 的 文件 达到 配置 的 最 
大 大 小 。 最 终 系 统 中 将 会 有 很 多 存储 文件 ， 所 有 的 这 些 文 件 都 是 候选 
文件 ， 其 可 能 包含 一 些 用 户 请 求 行 键 的 单元 格 ， 如 图 9-4 中 的 例子 所 


pees 
= 


: 
| Bloom | 一 一 Bloom | 一 一 一 00m 
= x 


5 Yes 和 6 seeks/blocks loaded 
布 隆 过 滤器 Maybe Maybe No No Maybe No No Maybe > 2 seeks/blocks loaded 


问题 : 哪个 文件 (可能) 有 “row-R” 


块 索引 CEE a a a? Yes 


图 9-4 ”使 用 布 隆 过 滤器 能 够 帮助 减少 MO 操作 的 数量 


这 些 文件 都 来 目 同一 个 列 族 ， 所 以 它们 行 键 的 分 布 很 相似 。 尽 管 
只 有 几 个 文件 包含 特定 行 的 更 新 ， 文 件 的 块 索引 还 是 履 次 了 整个 行 键 
范围 。 块 索引 能 确定 文件 中 是 否 包 含 某 个 行 键 。region 服 务 器 需要 加 载 
每 一 个 块 来 检查 该 块 中 是 否 实际 包含 该 行 的 单元 格 。 


男 一 方面 ， 使 用 布 隆 过 滤器 的 好 人 处 是 ， 用 户 可 以 立即 判断 一 个 文 
件 是 否 包 含 特定 的 行 键 。 这 个 过 滤 紫 的 特性 是 ， 如 果 这 个 文件 不 包含 
这 个 行 ， 它 会 给 你 一 个 明确 的 管 复 ， 但 是 如 采 文 件 包含 这 一 行 时 ， 答 
复 却 可 能 有 误 ， 即 它 声 称 文件 包含 这 个 数据 而 实际 却 并 非 如 此 。 错 误 
肯定 答复 的 数量 可 以 被 调整 ， 通 前 被 设置 为 1%， 这 意味 着 过 滤 咒 中 天 
于 一 个 文件 包 仿 一 个 请 求 行 的 报告 中 有 1% 是 错误 的 ， 因 此 可 能 会 有 一 
个 块 被 错误 地 加 载 和 检查 。 


一 一 对 单个 的 get 操 作 来 说 ， 这 并 不 能 转化 为 即时 的 性 
能 提升， 因为 HBase 的 读 取 是 并 行 的， 并 且 节 终 被 读 磁盘 延 
时 约束 。 减 少 不 必 要 的 块 加 载 数 量 可 以 提高 整个 集群 的 吞吐 
TR o 


用 户 可 以 从 例子 中 看 出 块 加 载 数 量 大 大 减少 了 ， 这 在 负载 很 重 的 
系统 中 会 产生 很 大 的 影响 。 为 了 提高 效率 ， 用 户 还 必须 使 用 一 种 特定 
的 更 新 模式 : 如果 用 户 定期 修改 所 有 行 ， 那 么 大 部 分 的 存储 文件 都 将 
包含 用 户 查 找 行 的 数据 。 这 种 场景 不 适合 使 用 布 隆 过 滤 右 。 但 是 ， 如 
末 用 户 批 量 更 新 数据 ， 使 得 一 行 数据 每 次 只 个 写 入 到 少数 几 个 存储 文 
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FA Pah $8 18 REA EI AC, o 因为 加 载 更 少 的 块 将 
导致 更 少 的 缓存 波动 ， 所 以 缓存 的 命中 率 也 会 相应 提高 。 由 于 服务 天 
在 大 部 分 时 候 加 载 的 都 是 包含 请 求 数据 的 块 ， 相 关 的 数据 将 有 更 大 的 
机 会 留 在 块 缓存 中 ， 随 后 读 操 作 可 以 使 用 这 些 数 据 。 


除了 更 新 模式 ， 另 一 个 决定 是 否 在 应 用 场景 中 使 用 布 隆 过 滤器 的 
因素 是 添加 开销 。 每 项 会 在 过 滤器 中 占用 约 1 字 节 的 存储 空间 。 回 到 上 
面 的 例子 中 ， 存 储 文件 的 大 小 是 1 GB 时 ， 假 设 用 户 只 存储 计数 器 类 型 
数据 (Blase Wlong 型 值 ) ， 并 且 加 上 KeyValue 信息 (BUEN 
坐标 ， 或 行 主键 、 列 族 名 、 列 限定 词 、 时 间 惟 和 类 型 ) 的 开销 ， 那 么 


BETS TCR MENFI BAL ARG BE) 。 此 时 布 隆 过 渡 
器 的 大 小 将 是 存储 文件 的 二 十 分 之 一 ， 大 概 占 用 51 MB 空间 。 


现在 假设 用 户 的 单元 格 的 平均 大 小 是 1 KB， 那 么 过 滤器 只 需要 1 
MB 空间 。 考 虑 到 过 滤 需 在 今后 需要 发 挥 优化 作用 ， 与 一 个 1 GB 甚至 更 
大 的 文件 相 比 ， 一 个 儿 百 KB 的 行 级 布 隆 过 滤 紫 的 开销 其 小 ， 这 种 情况 
下 使 用 过 滤 占 是 有 用 的 。 


最 后 一 个 问题 是 :使 用 行 级 还 十 行 加 列 级 的 布 隆 过 滤 硕 ? 这 取决 
于 用 户 的 使 用 和 模式。 如 采用 户 只 做 行 扫 摘 ， 那 么 使 用 更 具体 的 行 加 列 
级 的 布 隆 过 滤器 将 不 会 有 任何 帮助 。 即 使 用 户 使 用 行 加 列 的 读 操 作 
时 ， 使 用 行 级 的 布 隆 过 滤器 仍然 可 以 减少 需要 检查 的 文件 数量 ， 但 古 
反 过 来 使 用 行 加 列 级 的 布 隆 过 滤 此 却 不 能 为 行 扫 接 提供 更 好 的 性 能 。 


当 用 户 不 能 批量 更 新 特定 的 一 行 ， 并 且 最 后 所 有 的 存储 文件 都 包 
含 该 行 的 一 部 分 时 ， 行 加 列 级 的 布 隆 过 滤器 很 有 用 。 更 具体 的 行 加 列 
级 的 过 滤 帮 能够 识别 出 哪个 文件 包含 用 户 请 来 的 数据 。 显 然 ， 如 采用 
尸 总 是 加 载 整 行 ， 那 么 这 个 过 滤 卓 仍然 很 难 起 到 作用 ， 因 为 region 服 务 
器 无 论 如 何 都 需要 加 载 每 个 文件 中 匹配 的 块 。 


因为 行 加 列 级 的 过 滤器 将 需要 更 多 的 存储 空间 ， 所 以 用 户 需 要 计 
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元 素数 量 有 一 个 最 大 值 。 如 采用 户 的 存储 文件 中 有 太 多 单元 格 ， 实 际 
的 元 素数 量 可 能 会 超过 最 大 值 ， 并 且 和 需要 回 退 到 使 用 行 级 过 滤器 。 


图 9-5 总 结 了 不 同 级 别 布 隆 过 滤 右 的 选择 标准 。 


根据 用 户 的 应 用 场景 ， 使 用 布 隆 过 滤 右 可 能 有 益 于 提高 整个 系统 
的 性 能 。 如 宁可 能 的 话 ， 用 户 应 当 尽量 使 用 行 级 布 隆 过 滤 带 ， 因 为 它 
在 额外 的 空间 开销 和 利用 选择 过 滤 存 储 文件 提升 性 能 之 间 获 得 了 很 好 
的 平衡 。 只 有 当 用 户 使 用 行 级 布 隆 过 滤 紫 没有 性 能 提升 的 时 候 ， 表 考 
虑 使 用 开销 更 大 的 行 加 列 级 布 隆 过 滤 右 。 


使 用 布 隆 过 滤器 


图 9-5 ”使 用 哪 种 布 隆 过 滤器 的 选择 标准 


9.7 版 本 管理 


我 们 需要 在 回顾 HBase 如 何 存储 和 检索 数据 以 后 ， 再 来 了 解 版 本 管 
理 机 制 。 用 户 使 用 时 间 戳 时 需要 注意 一 些 高 级 技巧 (假设 用 户 已 经 了 
解 它 们 的 行为 模式 ) ， 这 些 高 级 技巧 可 能 适用 于 某 些 特定 的 使 用 场 
和 
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9.7.1 隐 式 版 本 控制 
在 用 户 确 保有 具 服 务 器 上 的 时 钟 是 同步 的 之 前 ， 有 些 问 题 就 已 经 被 


指出 了 。 其 中 一 个 可 能 出 现 的 问题 是 ， 当 用 户 跨 服务 器 把 数据 存储 在 
多 行 呆 村 ， 估 用 隐 头 的 本 辣 吉本 能 证 用 户 最 终 得 到 元 全 个 同 的 阿 则 


例如 ， 假 设 用 户 使 用 HBase URL 短 网 址 服务 ， 并 且 为 现 有 用 户 存 
储 3 个 新 缩短 过 的 URL。 所 有 的 键 都 被 认为 是 完全 分 布 式 的 ， 所 以 3 个 
新 行 最 后 在 不 同 的 region 服 务 器 上 “。 进 一 步 假设 这 些 服务 器 的 时 间 都 相 
隅 一 个 小 时 ， 如 果 用 户 通过 扫描 客户 端 来 获取 最 近 一 小 时 更 新 的 缩写 
URL 列 表 ， 用 户 将 会 遗漏 一 些 数 据 ， 因 为 它们 被 保存 时 的 时 间 稚 与 客 
尸 问 认为 的 当前 时 间 相 差 超 过 一 小 时 。 


用 户 可 以 通过 在 存储 这 些 值 时 设置 商定 的 或 者 共享 的 时 间 戳 来 避 
免 这 个 问题 。put 操作 允许 用 户 设 置 一 个 客户 端的 时 间 崔 作为 奉 代 ， 
并 以 此 宪 盖 服 务 右 的 时 间 。 显 然 ， 依 徘 服务 右 来 完成 这 项 工作 更 方 
Œ, 但是, 在 些 情况 下 用 户 可 能 还 需要 使 用 这 个 方法 © 


region 被 拆 分 类 露 了 服务 絮 时 间 不 一 任 引 起 的 为 一 个 问题 。 假 设 用 
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硬 上 ， 并 且 使 用 服务 旧 隐 式 的 时 间 礁 。 十 分 钟 后 这 个 region 被 拆 分 
并 且 用 户 一 半 的 数据 更 新 被 移 到 了 另 一 个 服务 左上。 See FU 
FEB eA“, Akasa B RER ° MEST 
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个 值 的 最 新 版 本 ， 则 会 得 到 第 一 个 之 前 存 的 值 。 


所 有 的 服务 万 时间 同 步 之 后 ， 用 户 还 应 该 了 解 一 些 有 趣 的 副 作 
用 。 首 先 ， 一 个 特定 的 时 间 可 能 重 现 一 列 的 其 他 版 本 。 这 种 情况 发 生 
在 用 户 存 储 的 版 本 数 比 列 族 级 配置 的 版 本 数 更 多 的 时 候 。 例 如 ， 当 玖 
认 是 保持 一 个 单元 或 者 一 个 值 的 最 近 3 个 版 本 时 。 


如 果 用 户 向 同一 列 中 揪 入 10 次 新 值 ， 并 且 通 过 使 用 Get 类 的 
setMaxVersions() 函数 来 要 求 保留 时 所 有 孤本 的 完整 列表 ， 用 户 将 永 
远 只 能 得 到 表 模 式 中 配置 的 那么 多 个 版 本 ， 即 默认 配置 的 最 近 3 个 版 


本 。 但 是 ， 当 用 户 显 式 地 删除 最 后 两 个 版 本 时 会 发 生 什么 呢 ? 
例 9.1 删除 显 式 时 间 戳 的 示例 应 用 程序 


for(int count = 1;count < = 6;count++){ @ 
Put put = new Put(ROW1); 
put .add(COLFAM1, QUAL1, count, Bytes. toBytes("val-" + count)); © 
table.put(put); 


Delete delete = new Delete(ROW1); © 
delete.deleteColumn(COLFAM1, QUAL1,5); 
delete.deleteColumn(COLFAM1, QUAL1, 6); 
table.delete (delete) ; 


@ 存 储 同 一 列 6 次 。 

@ 使 用 循环 变量 把 版 本 设 为 一 个 特殊 的 值 。 

人 @ 删 除 最 新 的 两 个 版 本 。 

当 你 运行 这 个 例子 时 ， 你 应 该 可 以 看 到 以 下 输出 : 


After put calls... 

KV: row1/colfam1:quali/6/Put/vlen=5, Value: 
KV: row1/colfam1:quali/5/Put/vlen=5, Value: 
KV: row1/colfam1:quali/4/Put/vlen=5, Value: 


After delete call... 

KV: row1/colfam1:quali/4/Put/vlen=5, Value: 
: row1/colfami: quali1/3/Put/vlen=5, Value: 
: rowi1/colfami:quali1/2/Put/vlen=5, Value: 


有 趣 的 现象 是 ， 用 户 使 得 版 本 2 和 版 本 3 复活 了。 这 是 由 于 服务 器 
把 内 部 处 理 推迟 到 一 个 定义 好 的 时 间 执 行 。 该 列 的 老 版 本 仍然 存在 ， 
因此 删除 较 新 的 版 本 会 使 它们 再 次 出 现 。 

这 种 情形 只 可 能 出 现在 major 合 并 被 执行 之 前 ， 在 这 之 后 老 版 本 会 
被 永久 删除 ， 而 保留 的 版 本 数 基于 已 配置 的 最 大 保留 版 本 数 。 


一 一 用 户 可 以 用 示例 代码 中 一 些 被 注释 掉 的 代码 来 强制 
执行 刷 写 和 major 合 并 。 如 果 用 户 重新 运行 这 个 例子 ， 将 会 
到 这 样 的 结 


After put calls... 
KV: row1/colfam1:quali/6/Put/vlen=5, Value: 
KV: row1/colfam1:quali/5/Put/vlen=5, Value: 


KV: row1/colfam1:quali/4/Put/vlen=5, Value: 
After delete call... 
KV: row1/colfam1:quali/4/Put/vlen=5, Value: 


由 于 老 版 本 已 被 删除 ， 它 们 不 会 再 出 现 。 


最 后 ， 在 处 理 时 间 惟 时， 还 有 另外 需要 注意 的 一 个 问题 : 删除 标 
记 。 在 HBase 中 ， 删 除 操作 的 本 质 是 添加 一 个 市 有 特定 时 间 惟 的 莫 碑 标 
记 到 存储 中 。 在 此 基础 上 ， 它 屏蔽 直接 指定 的 对 应 版 本 的 数据 ， 或 者 
一 个 列 删除 标记 会 抹 去 比 给 定时 间 惟 更 老 的 所 有 版 本 的 数据 。 例 9.2 用 
Shell zn T EROL 。 


例 9.2 ”使 用 显 式 时 间 鹤 删除 可 以 屏蔽 之 前 的 put 操作 


hbase(main):001:0> create 'testtable', 'colfam1' 


© row(s)in 1.1100 seconds 


hbase(main):002:0> Time.now.to_i 


=> 1308900346 
hbase(main):003:0> put 'testtable', 'row1', 'colfam1:quali','vali' 


© 
© row(s)in 0.0290 seconds 


hbase(main):004:0> scan 'testtable' 


ROW COLUMN+CELL 


rowicolumn=colfam1: quali, timestamp=1308900355026, value=val1 
1 row(s)in 0.0360 seconds 


hbase(main):005:0> delete 'testtable', 'row1', 'colfami:qual1' 


© 
© row(s)in 0.0280 seconds 


hbase(main):006:0> scan 'testtable' 
ROW COLUMN+CELL 
© row(s)in 0.0260 seconds 


hbase(main):007:0> put 'testtable', 'row1', 'colfam1:quali','vali',\ 


Time.now.to_i - 50000 


© 
0 row(s)in 0.0260 seconds 


hbase(main):008:0> scan 'testtable' 
ROW COLUMN+CELL 

© row(s)in 0.0260 seconds 
hbase(main):009:0> flush 'testtable' 


(4) 
0 row(s)in 0.2720 seconds 


hbase(main):010:0> major_compact 'testtable' 


© row(s)in 0.0420 seconds 


hbase(main):011:0> put 'testtable', 'row1', 'colfam1:quali','vali',\ 


Time.now.to_i - 50000 


© 
0 row(s)in 0.0280 seconds 


hbase(main):012:0> scan 'testtable' 


ROW COLUMN+CELL 


row1 column=colfami:quali, timestamp=1308900423953, value=val1 
1 row(s)in 0.0290 seconds 


@ 癌 新 创建 的 表 的 列 中 存 入 一 个 值 ， 运 行 扫描 来 验证 结 采 。 


_ @ 删 除 列 的 所 有 值 ， 这 将 会 设置 一 个 市 有 当前 时 间 玲 的 删除 标 
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@ 通 过 对 表 的 刷 写 和 major 合 并 来 移 除 这 个 删除 标记 。 


@ 再 次 存储 市 有 过 去 时 间 崔 的 值 ， 随 后 的 扫描 如 预期 一 样 显 示 了 
插入 的 值 。 


这 个 例子 显示 了 在 某 些 情况 下 ， 用 户 可 能 会 看 到 一 些 意 想 不 到 的 
数据 。 但 是 ， 这 些 行为 都 是 可 以 由 HBase 的 架构 来 解释 的 ， 并 且 它 们 的 
ACE habe AREY ° 


9.7.2” 自 定义 版 本 控制 


由 于 你 可 以 指定 自己 时 间 惟 的 值 ， 因 此 也 可 以 创建 自己 的 版 本 控 
制 计划 。 在 覆 志 服务 紫 端 基于 同步 的 服务 帮 时 间 的 时 间 鹤 时 ， 用 户 可 
以 不 使 用 基于 时 间 的 版 本 。 


例如 ， 用 户 可 以 把 时 间 戳 和 一 个 全 局 数字 生成 器 结合 起 来 使 
用 ， 这 个 生成 器 提供 了 从 “1 开始 一 直 增 加 的 顺序 数字 。 每 次 用 户 插入 
一 个 新 值 时 束 会 获得 一 个 新 数 子 ， 并 且 在 调用 put 函数 时 会 用 到 它 。 


用 户 必 须 为 每 个 put 操作 都 这 么 做 ， 人 否则 服务 郁 将 插入 一 个 基于 
服务 夯 问 时 间 的 时 间 玲 。 表 或 者 列 的 朱 述 中 有 一 个 标志 可 以 表明 你 使 
用 的 是 自 定 义 的 时 间 戳 《“ 即 自 定义 的 版 本 控制 策略 ) 。 如 果 用 户 没有 
设置 这 个 值 ， 那 么 它 将 在 后 台 被 服务 器 时 间 蔡 换 挥 。 


| 

Ee 
试 过 自己 的 解决 方案 ， 因 为 这 种 方法 并 没有 被 广泛 地 用 于 生 
产 中 。 


注意 ， 负 值 的 时 间 戳 值 也 未 经 过 测试 ， 尽 管 它 在 HBase 
开发 圈 中 被 讨论 过 几 次 ， 但 是 它 从 来 没有 被 确认 能 够 正解 工 
作 。 


确保 同一 个 单元 的 两 次 单独 更 新 不 会 使 用 相同 的 时 间 
和 鹤 ， 这 样 会 造成 冲突 。 通 前 最 后 保存 的 值 古 可 见 的 。 


先 抛 开 这 些 警告 ， 下 面 是 一 些 展 示 了 自 定 义 版 本 控制 模式 如 何 为 
全 局 表 模 式 设 计 带 来 益处 的 例子 。 
记录 ID 


使 用 这 个 技术 的 典型 例子 在 9.5 广 中 进行 了 讨论 ， 即 Facebook 收 件 
箱 搜索 应 用 (Facebook inbox search) 。 它 使 用 时 间 戳 值 存储 消息 ID 。 
由 于 这 些 ID 随 着 时 间 而 增长 ， 并 且 在 HBase 中 ， 版 本 的 隐 式 排列 顺序 是 
降序 排序 ， 所 以 用 户 可 以 按时 间 排 序 获取 到 匹配 搜索 列 的 最 后 10 个 版 
本 以 得 到 最 近 的 10 条 信息 。 


数字 生成 器 


这 里 案 按 着 最 初 的 例子 ， 即 使 用 分 布 式 数 子 生 成 右 。 生 成 融和 基 
于 时 间 的 数据 难看 起 来 作用 相同 : 按照 一 个 单调 递增 的 数 升 序 排列 所 
有 存储 的 值 。 不 过 它们 的 区 别 更 微妙 ， 因 为 Java 计 时 妖 使 用 的 精度 是 晕 
秒 ， 这 意味 着 使 用 完全 相同 的 时 间 存 储 两 个 值 是 不 太 可 能 的 ， 但 并 不 
征 完 全 不 可 能 。 如 果 用 户 需要 一 个 全 局 完全 唯一 的 版 本 控制 解决 方 
和 案 ， 依 赖 数 字 生 成 名 解决 这 个 问题 。 


使 用 HBase 的 时 间 组 件 是 利用 其 架构 提供 的 额外 维度 的 一 种 有 趣 方 
式 。 用 户 的 自由 度 更 少 一 些 ， 因 为 它 只 接受 1ong 型 值 ， 这 与 行 和 列 键 
。 但 是 ， 它 可 以 解决 用 户 一 些 特定 使 用 场景 中 
[A 题 o 


© 例如 ， 用 户 可 以 使 用 Orderly ( http://github.com/mwdalton/orderly ) 
来 生成 组 合 行 键 。 


@ 详情 请 查看 关于 Socorro 的 Mozilla 维基 百科 页 面 〈 


https:/wiki.mozilla.org/socorro ) 。 


@ 详情 请 查阅 OpenTSDB 项 目的 网 站 ( http:/opentsdb.net ) ， 尤 其 推 
存 阅读 关于 它 的 模式 的 页 面 ( http://opentsdb.net/schema.html ) ， 因 为 
它 为 需要 高 性 能 存储 数据 查询 的 应 用 提供 了 先进 的 键 设计 概念 。 


@ 查看 HavroBase ( https://grthub.com/spu//ara/hourobase ) 在 GitHub 上 
的 项 目 页 面 。 


ITHBase 项 目 最 开始 是 HBase 的 一 个 contrib 模 块 。 它 随后 被 转移 到 一 

个 外 部 库 ， 使 其 能 够 定义 HBase 的 不 同 版 本 ， 并 且 根 据 自己 的 进度 来 开 
发 。 详 情 参 见 GitHub 的 项 目 页 面 ， 见 hetps://github.com/hbase-trx/hbase- 
transactional-tableindexed ° 


© 与 ITHBase 类 似 ，IHBase 最 开始 也 是 HBase 的 一 个 contrib 项 目 。 它 因 
为 同样 的 原因 被 转移 到 一 个 外 部 库 。 详 情 参见 GitHub 中 该 项 目的 页 
面 。 ( http://github.com/ykulbaklihbase ) 它 的 JIRA 问 题 原始 文档 在 网 上 
的 HBASE-2037 ( https://issues.apache.org/jira/browse/HBASE-2037 ) 

里 。 


D 截止 到 写 这 本 书 的 时 候 ，IHBase 只 支持 到 HBase 的 0.20.5 版 本 。 


详情 参见 JIRA 问 题 跟踪 系统 里 的 HBASE-2038 ( 
http://issues.apache.org/jira/browse/HBASE-2038 ) ° 


© Solr 基 于 Lucene， 并 扩展 了 Lucene 以 提供 一 个 功能 完整 的 搜索 服务 。 
详情 请 参见 该 项 目 网 站 ( http:/lucene.apache.org/) ° 


© 请 到 GitHub 的 项 目 页 面 碍 看 详细 信息 并 获取 代码 ( 
https://github.com/akkumar/hbasene/tree/master/src/main/java/org/hbasene/ 
Tndex/create/mapred ) ° 


Q) GitHub 页 面 有 详细 信息 和 源 代 码 ( 
https://github.com/akkumar/hbasene ) 。 


2) HBASE-3529 ( https://issues.apache.org/jira/browse/HBASE-3529 ) ° 


(3) 可 以 在 ZooKeeper 项 目 ( 
bin hah ee baie aca Slt aed yell aca 


recipes.twoPhasedCommit ) 页 面 找到 更 多 详细 信息 


一 个 不 第 见 的 例子 是 基于 虚拟 化 的 服务 器 。 查 看 
http://support.ntp.org/bin/view/Support/KnownOsIssues#Section_9.2.2 列 出 
的 NTP 的 问题 。NTP 是 在 虚拟 机 上 常用 的 网 络 时 间 协 议 (Network Time 


Protocol) 。 


(5) 查看 zk_idgen 项 目 ( http://sourceforge.net/projects/zkidgen/) ， 它 是 
— SEF ZooKeepert aE Boas IF ° 


第 10 章 ”集群 监控 


一 旦 局 动 HBase 集 群 ， 保 证 集群 持续 正 间 运行 吏 显 得 非常 必要 。 本 
章 描述 了 如 何 使 用 一 系列 工具 来 监控 集群 的 状态 。 


10.1 介绍 


监控 生产 系统 非常 重要 ， 系 统 通 常会 有 多 种 监控 指标 ， 通 过 它们 
用 户 可 以 了 解 到 当前 状态 的 各 种 详细 信息 ，HBase 系 统 也 和 如 此 。 


HBase 实 际 上 是 从 Hadoop 继 承 了 监控 API， 然 而 Hadoop 是 一 个 面 回 
批 处 理 的 系统 ， 给 用 户 的 反馈 信息 往往 不 够 及 时 。HBase 则 要 求 更 加 实 
时 ， 因 为 HBase 和 党 被 用 来 处 理 随机 在 线 访问 请 求 ， 例 如 ， 在 后 台 张 动 网 
站 。 这 些 请 求 的 响应 时 间 需 要 维持 在 一 定 标 准 以 下 ， 以 保持 良好 的 用 
户 体验 一 -通常 也 被 称 作 服务 水 平 协议 (SLA) 。 


对 分 布 式 系统 来 说 ， 管 理 员 要 和 弄 清 条 系统 的 整体 状态 是 一 项 艰巨 
的 任务 ， 这 需要 单独 检查 每 台 服 务 器 的 状态 。 即 使 对 单机 系统 来 说 ， 
当 管理 员 处 理 一 堆 原 始 日 志文 件 时 ， 要 搞 清 楚 系 统 情况 仍然 十 分 困 
难 。 当 系统 朋 北 时 ， 了 解 问题 出 现 的 时 间 和 地 点 将 非常 有 用 。 但 钙 当 
你 面 对 MB、GB 甚 至 TB 量 级 的 字符 文件 时 ， 这 种 努力 像 大 海 捞 针 一 
样 ， 可 以 说 只 有 少 部 分 人 能 够 胜任 这 样 的 任务 。 即 使 用 户 拥有 高 超 的 
日 志 阅 读 技巧 ， 也 将 花费 大 量 时 间 来 推算 和 验证 并 找 出 问题 的 根源 。 


这 显然 这 不 是 一 个 新 问题 ， 且 多 年 来 出 现 了 各 种 可 行 的 解决 方 
案 。 这 些 解 决 方案 可 以 归属 于 可 视 化 和 监控 工具 两 类 ， 许 多 工具 包含 
其 中 一 类 或 两 类 功能 。 它 们 将 捕捉 到 的 系统 监控 指标 信息 图 形 化 ， 同 
时 可 以 按时 间 筛 选 数 据 ， 通 常 以 日 、 月 和 年 等 为 时 间 单 位 将 数据 显示 
Ce ee eee Eee 
说 “一 图 抵 千 言 ”。 


_ 可视化 可 以 很 好 地 展示 定量 历史 数据 ， 但 是 对 于 超大 粒度 的 时 间 
间 隅 来 说 ， 了 解 系统 当前 的 运行 状态 仍然 很 困难 。 此 时 监测 文 持 系统 
的 定性 数据 整 非常 重要 了 ， 它 监 昕 用户 的 行为 ， 检 查 数 据点 和 一 定时 
间 艺 围 内 的 监控 指标 。 文 持 工 具 包 通 党 都 提供 了 很 多 出 色 的 检测 工 


H, AEA P RRENA ENRERE CA LYE ° Aa as a] 
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可 以 设 定 检查 的 频率 ， 其 频率 可 以 设置 为 从 几 秒 到 几 天 的 范围 。 

当 检 测 显 示 系 统 出 现 问 题 或 者 完全 失效 时 ， 对 应 的 规避 操作 会 目 
动 执行 ， 服务 万 可 以 被 下 线 、 重 局 或 者 修复 。 当 问题 依旧 存在 时 ， 会 
有 别 的 规则 来 捉 升 问题 的 处 理 级 别 ， 例 如 ， 管 理 员 将 人 工 处 理 问 题 。 
具体 措施 包括 发 送 电 子 邮 件 、 短 信 或 者 拨打 电话 。 

市 场 上 有 很 多 监控 系统 可 供 选择 。HBase 基 于 Java 的 特性 进行 开 
发 ， 并 且 和 Hadoop 关 系 密切 ， 组 合 使 用 时 性 能 更 为 可 靠 ,但 同时 系统 
选择 更 为 受 限 。HBase 原 生 文 持 的 可 视 化 系统 古 Ganglia。 为 了 监控 系 
统 ， 用 户 需 要 一 个 能 够 处 理 HBase 进 程 导 出 的 、 基 于 JMX ”监控 指标 
API 的 系统 ， 通 第 此 类 型 系统 的 例子 是 Nagios 。 


ABS 用 户 应 该 建立 一 个 完整 的 支持 系统 框架 ， 以 便 在 生 
产 系统 中 使 用 ， 即 使 用 户 只 是 在 使 用 HBase 做 原型 研究 或 者 
概念 验证 。 通 过 这 种 方式 你 可 以 开始 对 系统 的 各 个 数值 有 个 
良好 的 认识 ， 从 而 可 以 正确 地 配置 系统 。 处 理 没有 监控 和 监 
控 指 标的 集群 和 闭 着 眼 开 车 一 样 。 


在 HBase 集 群 中 运行 负载 测试 很 有 用 ， 但 是 用 户 需要 理 
解 当前 系统 运行 情况 和 性 能 之 间 的 关系 。 使 用 可 视 化 工具 可 
以 帮 用 户 将 服务 促 和 子 系统 中 的 消息 串联 起 来 ， 这 对 理解 测 
试 结 采 很 有 价值 。 


10.2 ”监控 框架 


每 个 HBase 进 程 (包括 master 和 region 服 务 器 ) 都 会 提供 一 系列 监 
探 指 标 。 这 些 监 控 指 标 随 后 可 以 被 各 种 监控 API 和 工具 使 用 ， 包 括 JMX 
和 Ganglia。 每 种 服务 器 都 有 多 组 监控 指标 ， 这 些 监控 指标 按 子 系统 分 
组 并 隶属 于 一 种 服务 器 。 例 如 ， 一 组 Java 虚 拟 机 JVM) 提供 的 监控 指 
标 深 刻 地 反映 了 当前 进程 中 很 多 值得 关注 的 细 和 ， 包 括 垃 圾 回收 统计 
和 内 存 占 用 等 。 


10.21 上下文、 记录 和 监控 指标 
HBase 使 用 Hadoop 的 监控 框架 ， 并 继承 了 其 所 有 的 类 和 特性 。 这 个 


ERI MetricsContext 接口 来 处 理 监控 数据 点 的 生成 ， 并 使 用 这 
些 数据 点 监控 和 绘图 。 下 面 是 可 用 的 实现 列表 。 


GangliaContext 


用 来 推送 监控 指标 到 Ganglia， 细 节 请 参见 10.3 节 。 


FileContext 


将 监控 指标 写 入 人 磁 副 上 一 个 文件 中 。 


TimeStampingFileContext 


同样 将 监控 指标 写 入 磁盘 上 一 个 文件 中 ， 但 十 为 每 个 监控 指标 洪 
加 一 个 时 间 玲 前 级 。 这 让 文件 的 格式 和 日 志 记 了 录 非 第 类 似 。 


CompositeContext 


允许 为 监控 指标 生成 不 止 一 个 上 下 文 ， 例如， 用 户 可 以 一 次 同时 
指定 Ganglia 和 文件 上 下 文 。 


> 


NullContext 


"o 使 用 这 种 上 下 文 时 ， 不 生成 也 不 聚合 
监控 指 怀 。 


NullContextwithUpdateThread 


不 生成 任何 监控 指标 ， 但 是 局 动 聚 合 统计 线程 。 这 种 上 下 文 在 通 
过 JMX 检 索 监 控 指标 时 使 用 ， 详 见 10.4 节 。 


每 个 上 下 文 都 有 唯一 的 名 字 ， 在 外 部 配置 文件 中 注 明 ( 详 见 10.3.1 
节 的 “HBase 相 关 步 又 ”部 分 ， 也 被 用 来 定义 各 种 属性 和 实现 
MetricsContext 接口 的 实现 类 。 


人 | 
一 一 全 另 一 个 HBase 继 承 自 Hadoop 监 控 指标 框架 的 产物 是 
使 用 其 提供 的 ContextFactory 来 装载 各 种 上 下 文 类 。 配 
置 文件 名 在 这 个 类 中 被 硬 编码 为 hadoop- 
metrics.properties ， 这 是 HBase 使 用 和 Hadoop 完 全 一 
样 的 文件 名 ， 而 不 使 用 更 为 直观 的 hbase- 
metrics.properties 的 原因 。 


多 重 监控 指标 使 用 MetricsRecord 分 组 ， 来 描述 一 个 具体 的 子 
系统 。HBase 使 用 这 些 组 别 来 保存 master、region 服 务 器 或 其 他 服务 器 
的 统计 信息 。 每 个 组 都 有 唯一 的 名 字 ， 完 整 的 监控 指标 名 称 都 是 由 上 
下 文 名 称 和 实际 监控 指标 名 称 组 合 而 成 的 。 


< context-name>.< record-name>.< metric-name> 


上 下 文 有 内 置 的 定时 亏 来 触发 并 将 监控 指标 推送 至 目标 一 一 可 能 
征文 件 、Ganglia 或 者 用 户 目 己 定制 的 解决 方案 。 上 下 文 配置 选项 中 的 
period 选项 被 用 来 设 定 上 下 文 更 新 监控 指标 的 时 间 间 隅 。 上 有 具体 上 下 文 
叮 能 含有 额外 的 属性 用 来 控制 行为 。 图 10-1 显 示 了 相关 类 的 序列 


Updater MetricsUtil | MetricsContext | MetricsBase | MetricsRecord | MetricsRegistry | MetricsMBeanBase | JMXClient 


tContext 
(name)  startMonitoringt) 


一 一 


startTimer() i 


A context: 
MetriesCoritext 


createRecard 
(context, name) 
createRecord > 
(name) 
create or retum 
existing record 
record: 
MetricsRecord 


4 record: 
MetricsRecord 


register Updater(this} ` 
€.9. RegionServerStatistics 


new( register, name} 
timerEvent{} Do MbeanUtiLregisterMBean ra 
doUpdate(this) 


pushMetricirecord) 
一 一 区 


> 


setMetric{name, value) or 


updatet) incrMetric(name, value) 


“ update{record) 
put or sum updated values 
in local RecordMap 
emitRecords(} oo 
push to Ganglia or file 


i <? extends MetricsBase> 


val 


Updater MetricsUtil | MetricsContext | MetricsBase | MetricsRecord | MetricsRegistry MetricsMBeanBase | JMXClient 


图 10-1 ”准备 监控 指标 涉及 类 的 序列 图 


在 系统 内 部 ， 监 控 指 标 是 被 基于 MetricsBase 的 容器 类 追踪 的 ， 
这 些 容 器 类 包含 各 种 当 消 息 发 生 时 需要 调用 的 更 新 或 者 增加 方法 。 反 
过 来 ， 框 以 跟踪 每 个 监控 指标 消息 的 数目 ， 并 将 其 与 上 次 跟踪 到 现在 
所 请 耗 的 时 间 关 联 起 来 。 


下 面 概述 了 Hadoop 和 HBase 监 控 指 标 框架 中 各 种 可 用 的 监控 指标 类 
型 ， 并 给 出 了 相关 缩写 形式 。 这 些 缩 写 将 在 本 章 后 续 部 分 被 引用 。 


整 型 值 (IV ) 

跟 踩 一 个 整 型 计数 右 ， 仅 仅 当 值 改 变 时 此 监控 指标 才 更 新 。 
长 整 型 值 (LV ) 

跟 踩 一 个 长 整 型 计数 希 ， 仅 仅 当 值 改 变 时 此 监控 指标 才 更 新 。 
速率 (R) 

一 个 代表 速率 的 浮 点 型 值 ， 可 以 是 每 秒 操作 或 者 消息 数 。 它 提供 
一 个 递增 方法 用 来 追踪 操作 次 数 ， 同 时 提供 一 个 上 次 轮 询 时 间 稚 来 追 
踩 消耗 的 时 间 。 当 监控 指标 被 轮 询 时 ， 将 发 生 以 下 事件 。 

1. 速率 以 操作 数目 / 秒 为 单位 计算 的 消耗 时 间 来 统计 。 

2. 这 个 速率 存储 在 之 前 设 定 的 值 域 中 。 

3. 内 部 计数 器 重 置 为 零 。 

4. 最 后 一 次 推送 时 间 设 置 为 当前 上 时间。 

5. 计算 的 速率 返回 给 调用 者 。 

SHH (s) 

这 种 上 下 文 类 型 用 来 存储 静态 的 、 基 于 文本 的 信息 ， 并 用 来 报告 
HBase 版 本 信息 和 构建 时 间 等 。 这 个 值 不 会 重 置 或 者 修改 ， 一 旦 赋值 ， 
其 在 进程 运行 时 一 直 保持 原样 。 

时 间 变 化 整 型 (TVI ) 


上 下 文 会 维护 一 个 单调 递增 村 加 计数 絮 。 监 控 指 标 拥有 一 个 人 简单 
的 递增 方法 ， 框 染 使 用 这 个 方法 对 各 种 消 恩 进行 计数 。 当 这 个 值 税 轮 
询 时 ， 它 将 返回 累计 的 整 型 值 ， 之 后 重 置 为 零 ， 并 等 竺 下 次 轮 询 。 
时 间 变 化 长 整 型 (TVL ) 

和 TVI 一 样 ， 只 有 操作 数 是 长 整 型 值 ， 主 要 作用 于 增 速 较 快 的 计 
A ar ee i E ie ee 
时 间 变 化 率 (TVR ) 

TVR 需要 追踪 操作 数 或 者 消息 的 数量 ， 以 及 完成 操作 所 用 的 时 
闻 ， 这 些 监控 指标 通常 用 来 计算 一 次 操作 完成 的 平均 时 间 。 同 时 监控 
指标 也 会 显示 每 个 操作 的 最 长 和 最 短 时 间 。 表 10-1 展 示 了 这 4 个 值 在 同 
一 监控 指标 下 是 如 何 用 不 同 前 缀 命名 的 。 

表 10-1 基于 时 间 变 化 率 的 监控 指标 反映 的 4 个 什 


Operations 


每 次 事件 完成 的 平均 时 间 ， 每 次 事件 完成 时 间 的 总 和 除 


注意 操作 数 和 累积 时 间 会 在 数据 轮 询 时 复位 。 操 作 数 是 由 轮 询 上 
下 文 索 加 生成 的 ， 休 持 单 调 人 递增。 与 此 相反 ， 平 均 时 间 是 一 个 相对 
值 ， 由 每 次 轮 询 间 隔 检索 的 监控 指标 计算 出 来 。 


每 次 操作 的 最 大 和 最 小 操作 时 间 不 会 复位 ， 直 到 调用 
resetMinMax() 函数 。 此 操作 可 以 通过 JMX (查看 10.4 节 ) 或 者 某 些 
扩展 监控 指标 隐 式 触发 来 完成 。 


持续 型 时 间 变 化 率 (PTVR ) 


PTVR 十 TVR 的 扩展 ， 它 添加 了 对 持续 的 周期 性 的 监控 指标 的 必要 
LIF: 因为 这 些 长 期 运行 的 监控 指标 并 不 是 每 次 轮 询 部 会 复位 ， 因 此 
它 每 次 报告 时 都 需要 特殊 处 理 。 


表 中 人 稍 称 那 一 列 是 实际 监控 指标 名 称 的 后 级 。 例 如 ， 当 检索 
HTable 提供 increment ( ) 操作 的 监控 指标 时 ， 你 会 看 到 4 个 值 ， 分 
别 是 jncrementNumOps 、incrementMinTime、 
incrementMaxTime 和 incrementAvgTime 。 


但 也 不 是 每 个 地 方 都 可 以 获得 这 4 个 值 ， 例 如 ， 基 于 上 下 文 的 监控 
指标 只 提供 AvgTime 和 Numops 的 值 ， 但 JMX 可 以 访问 这 4 个 值 。 


讨论 HBase 提 供 的 不 同类 型 的 监控 指标 时 ， 用 户 可 能 会 注意 到 引用 
筷 们 的 类 型 缩写 ， 用 户 目 己 搂 写 文 持 工具 时 ， 可 以 参考 它们 。 同 时 要 
记 住 ， 区 分 通过 监 欣 指 标 上 下 文 还 是 JMX 获 取 数 据 时 ， 不 同类 型 监控 
指标 的 行为 有 区 别 。 


一 些 监 控 指 标 (例如 ， 时 间 变 化 的 监控 指标 ) 会 在 轮 询 时 复位 ， 
但 是 对 应 的 上 下 文 会 党 计 它们 的 值 来 作为 单调 递增 计数 器 。 通 过 JMX 
获取 值 时 可 以 观察 到 复位 的 形 为 ， 因 为 这 样 可 以 直接 获取 监控 指标 的 
值 ， 而 非 获 取经 上 下 文 处 理 过 的 结果 。 


一 个 明显 的 例子 吏 是 TVR 类 监控 指标 中 的 Num0ps 。 通 过 监控 指 
标 上 下 文 读 取 数 据 时 ， 用 户 会 得 到 一 个 递增 的 值 ， 然 而 JMX 仅 会 近 供 
和 目 上 次 轮 询 之 后 到 现在 的 绝对 数目 。 


其 他 监控 指标 仅 在 上 次 更 新 后 数值 再 次 变化 时 才 生 成 数据 。 用 户 
显然 应 当 通 过 上 下 文 而 不 是 JMX 来 获取 这 些 监控 指标 的 值 ， 后 着 只 是 
简单 地 获取 上 次 轮 询 后 的 新 值 。 如 果 不 设 定 一 个 轮 询 周期 ，JMX 取 得 
的 值 将 永 不 改变 。 更 多 细节 请 看 10.4 节 。 图 10-2 显 示 了 在 每 个 监控 指标 
周期 ， 不 同 的 监控 指标 是 如 何 更 新 和 生成 数据 的 。JMX 总 是 恋 取 原始 
的 监控 指标 数据 ， 这 与 基于 上 下 文 的 聚合 统计 行为 有 显著 送 异 。 


Metrics (R) Metrics (IV) 
"A" B" wane 


get(): 2.45 current: 12 
led Previous: 2.45 


t tri 
p a Naan 


Metrics (R) [Absolute]: 

- Calculate Rate 一 Set” Previous” 
- Timestamp — Set “now()” 
-“Previous’ — Push to Record 

- Reset “Current” 


Metrics (IV) [Absolute]: 
-"Current” — Push to Record 
- Reset “Current” 


Metrics (TVI) [Increment]: 
-"Current” — Set “Previous” 
-“Previous” — Push to Record 
- Reset “Current” 


IT [eee] 


Merge updated metrics: 
- isAbsolute() — Set Value 
- isIncrement() 一 Add to Existing Value 


emitRecords() 


Write Aggregated Values: 

- Merce os 1.48 

- Metrics (IV) “B” — 6 

- Metrics (TVI)"C"— 1=156 
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图 10-2 ”各 种 监控 指标 收集 数据 和 《可 选 ) 复位 的 不 同 之 处 


HBase 也 有 些 异 常 率 监控 指标 ， 其 更 新 的 跨度 超过 了 一 般 监 控 指 标 
更 新 框架 所 使 用 的 更 新 时 间 。 


| HBase 中 有 些 长 期 运行 的 进程 ， 需 要 保证 监控 指标 
一 直 持 续 到 进程 结束 。 这 可 以 通过 
hbase.extendedperiod 属性 来 控制 ， 单 位 是 秒 。 默 认 不 
会 结束 超期 ， 但 是 提供 的 配置 将 其 设 成 了 3600 秒 ， 即 1 小 

时 。 


当前 这 些 周期 性 持续 的 监控 指标 主要 用 于 观察 region 服 
务 硼 和 master 对 应 的 合并 、 刷 写 和 拆 分 操作 的 时 间 和 变化 
率 。 在 region 服 务 占 端 ， 这 个 属性 也 会 触发 一 些 速 率 监控 指 
标的 复位 ， 包 括 读 、 写 和 同步 数据 的 延迟 。 


10.2.2 master 监 控 指 标 


master 进 程 导 出 的 所 有 监控 指标 都 和 它 在 集群 中 的 角色 有 天。 因为 
master 被 设计 成 相当 轻 量 级 的 系统 进程 ， 只 负责 一 些 集 群 范围 的 操作 ， 
ee ee eee 
PETE EN ° 


表 10-2 ”master 提 供 的 监控 指标 


监控 指标 i 
FRO, RIM Arlo RH 
) 


TE 


split size (PTVR ) 拆 分 预 写 日 志 的 大 小 


10.2.3 region 服务 器 监控 指标 


region 服 务 器 是 管理 实际 数据 读 取 和 写 入 的 部 分 ， 因 此 需要 收集 大 
量 的 监控 指标 信息 。 这 些 监控 指标 包含 了 服务 器 端 整 体 架 构 中 许多 不 
同 部 分 的 细节 信息 ， 例 如 ， 块 缓存 (block cache) 和 内 存 存储 Gn- 


memory store) 。 


本 蔬 我 们 会 将 监控 指标 进行 分 组 并 讨论 其 功能 ， 而 不 是 简单 地 列 
举 所 有 监控 指标 ， 因 为 理解 它们 整体 的 侣 义 比 了 解 每 个 单独 的 数据 点 


更 重要 。 而 且 在 每 个 组 内 部 ， 它 们 的 含义 都 非常 明确 ， 通 党 只 需要 很 
少 的 注释 来 解释 它们 ° 


块 缓存 监控 指标 


块 缓存 用 来 保存 底层 HFile 从 HDFS 读 取 的 存储 块 。 这 样 用 户 能 将 
一 个 块 保存 在 内 存 中 ， 直 到 空间 不 足 时 才 被 清除 出 内 存 。 


count (LV) 监控 指标 反映 了 当前 缓存 中 保存 的 块 数目 ，size (LV 
) Ws eae AT oa OnE SHIA), free (LV) 监控 指标 是 堆 空间 
为 缓存 保留 的 可 用 空间 ，evicted (LV) 监控 指标 统计 了 当 堆 空间 受 限 
时 将 被 移 除 的 块 的 数目 。 


块 缓存 追踪 缓存 命中 hit (LV) 和 缓存 失效 miss (LV) 的 数目 ， 
以 及 命中 率 hit ratio (LV ) ， 其 反映 了 命中 缓存 总 数 与 请 求 缓存 总 数 
的 关系 。 


_ 最后， 缓存 命中 数目 与 缓存 命中 率 相似 ， 仅 仅 是 统计 请 求 使 用 块 
缓存 且 命 中 的 操作 数目 。 参 考 3.2.2 市 “单行 grt ”中 的 
setCacheBlocks() 方法。 


”所 有 读 操作 都 会 笑 试 使 用 缓存 ， 不 管用 户 是 否 指 定 
过 将 使 用 的 块 保留 在 缓存 中 。 使 用 setCacheBlocks() 仅 
仅 影 响 块 的 保留 策略 。 


合并 监控 


当 region 服 务 器 需要 执行 异步 的 或 者 手动 调用 的 合并 存储 文件 的 日 
常 管理 任务 时 ， 它 将 会 使 用 不 同 的 监控 指标 来 报告 状态 。compaction 
size (PTVR ) 和 compaction time (PTVR ) 分 别 代 表 需 要 合并 的 存储 


文件 总 大 小 (AFERA) 和 操作 花费 时 间 。 注 意 ， 只 有 当 合并 操 
作 完 成 之 后 ， 这 些 值 才 会 被 报告 ， 因 为 只 有 那 时 才能 确定 这 些 值 。 


compaction queue size (IV) 用 来 监测 一 个 region 服 务 器 有 多 少 文 
件 当前 正在 排队 等 符合 # 


wa, 
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这 个 值 是 另 一 个 需要 特别 注意 的 参数 。 通 常 这 个 值 
很 小 ， 在 零 到 十 几 之 间 要 化 。 当 用 户 迪 到 IO 问题 时 ， 通 第 会 
发 现 这 个 数 上 升 很 快 。 请 查看 图 10-5 中 的 示例 。 


用 户 需要 注意 major 合 并 也 会 导致 这 个 数字 快速 上 升 ， 
为 这 个 操作 会 将 所 有 存储 文件 添加 到 队列 中 。 用 户 在 碍 看 疼 
表 时 需要 考虑 这 种 情况 。 


memstore 监 控 指 标 


更 狐 数 据 通 第 保存 在 region 服 务 属 的 memstore 中 ， 并 且 将 会 通过 之 
后 的 刷 写 写 到 磁盘 上 。memstore 监 控 指 标 提 供 了 人 memstore size MB (IV 
) 来 表示 服务 器 上 所 有 memstore 总 共 占 用 的 扒 大 小 ， 即 所 有 在 线 region 


的 memstore 的 总 和 。 


flush queue size (IV) 是 指 将 要 被 刷 写 的 region 的 数目 。jush size 
(PTVR ) 和 flush time (PTVR ) 分 别 表示 被 刷 写 到 磁盘 上 的 memstore 
大 小 和 本 次 刷 写 所 占用 的 时 间 。 


与 合并 监控 指标 类 似 ， 这 两 个 监控 指标 在 每 次 刷 写 完成 后 进行 更 
新 。 所 以 报告 的 内 容 只 关注 实际 值 ， 而 不 关注 正在 发 生 的 内 容 。 


rv 
与 合并 队列 类 似 ， 在 某 些 情况 下 用 户 可 能 发 现 刷 写 
队列 大 小 显著 地 上 升 了 ， 例 如 ， 当 用 户 的 服务 器 IO 出 现 问 题 
时 。 用 户 可 以 通过 监控 这 个 值 来 确定 正常 情况 下 数值 的 范围 
\ 通 常 也 是 个 较 小 的 值 ) ， 同 时 设 定 一 个 合理 阐 值 ， 当 排队 
数 超出 限制 时 触发 一 个 警告 


存储 监控 指标 


store files (IV) 监控 指标 显示 了 所 有 存储 文件 的 数目 ， 涉 及 当前 
机 器 管理 的 所 有 region 的 存储 文件 。stores (IV) 显示 了 服务 器 上 所 有 
region 的 存储 文件 的 数目 。store file index MB (IV) 监控 指标 (以 MB 
为 单位 ) 是 所 有 存储 文件 的 块 索 引 和 元 数据 索引 的 总 和 大 小 。 


LO 监控 指标 


region 服 务 器 使 用 3 个 延迟 监控 指标 来 跟 躁 WO 性 能 ， 它 们 都 以 品 秒 
为 单位 。 fs read latency (TVR) 报告 文件 系统 的 读 延 迟 ， 例 如 ， 从 存 
储 文件 中 装载 块 时 的 延 时 。fs write latency (TVR) 和 上 面相 似 ， 这 个 
E 例如 ， 包 括 写 存储 文件 和 预 写 日 


fs sync latency (TVR) 监控 指标 统计 了 预 写 日 志 ee 
系统 的 延迟 。 这 个 延 时 监控 指标 可 以 提供 故 层 VO 性 能 的 相 天 信息 
户 应 该 密切 关注 。 


其 他 监控 指标 


除了 以 上 这 些 ，region 服 务 器 还 提供 了 一 些 全 局 计数 硕 作 为 监 探 指 
标 。read request count (LV) 和 write request count (LV) 分 别 表 示 总 
的 读 操 作 (如 get()) 和 写 操作 (如 put()) 的 数目 ， 这 些 操作 由 当 
前 region 服 务 吉 汇总 其 所 有 在 线 region 的 信息 得 出 。 


requests (R) 监控 指标 是 自 上 次 轮 询 之 后 目前 每 秒 的 请 求 数 。 
regions (IV) 监控 指标 是 目前 region 服 务 器 在 线 的 region 数 目 。 


10.2.4 RPC 监控 指标 
master 和 region 服 务 絮 还 提供 了 RPC 子 系统 的 监控 指标 。 它 会 目 动 


监控 每 次 不 同 客户 端 和 服务 需 端 之 间 的 操作 ， 其 中 包括 master 和 region 
服务 硕 提 供 的 RPC 操 作 。 


Wi a. 

一 人 master 和 region 服务 器 使 用 的 是 一 套 共享 的 RPC 监 
控 系 统 ， 即 用 户 可 以 在 不 同 的 服务 器 上 看 到 相同 的 监控 指 
标 。 不 同 之 处 在 于 更 新 这 些 监控 指标 时 ， 进 程 调 用 的 RPC 不 
同 。 例 如 ， 在 master 端 ， 用 户 不 会 发 现 increment () 的 监 
探 指标 被 更 新 ， 这 是 因为 这 些 方法 是 region 服务 器 提供 的 。 
另 一 方面 ， 你 会 在 master 上 发 现 所 有 管理 操作 调用 的 监控 指 
标 ， 如 enableTable 和 compactRegion ° 


因为 这 些 监控 指标 直接 与 客户 问 和 管理 API 相 天 ， 用 户 可 以 通过 相 
应 的 API 调 用 来 推测 它们 的 意思 。 虽 然 命名 规则 不 完全 一 致 。 一 个 值得 
注意 的 模式 是 ， 与 region 相 关 的 API 操 作 有 额外 的 region 后 级 ， 例 如 ， 
HBaseAdmin 提供 的 split( ) 操作 对 应 splitRegion 监控 指标 。 
有 少数 监控 指标 和 API 没 关系 。 表 10-3 列 出 了 一 些 监控 指标 ， 但 是 这 
监控 指标 是 由 RPC 系 统 自 身 提供 的 。 


表 10-3 ”RPC 子 系统 提供 的 非 API 监 控 指标 


监控 指标 描述 


IE So 


监控 指标 


RPC 
Processing 
Time 


ree 间 ， 统 计 所 有 RPC 调 用 的 时 间 ， 并 取 平 


因为 RPC 需 要 使 用 排队 系统 ， 可 能 造成 操作 到 达 时 间 和 操作 实际 执 
行 时 间 的 延迟 ， 即 排队 时 间 


wa 


de 

IE 监控 排队 时 间 很 有 好 处 ， 因 为 它 反映 了 服务 器 的 负 
载 。 o 当 这 个 监控 指标 的 值 超过 临界 值 
后 便 会 触发 报警 。 这 是 系统 出 现 问题 的 早期 预警 信号 。 


剩 下 的 监控 指标 都 来 目 master 和 region 服 务 器 的 RPC API， 包 括 
regionServerStartup() 和 regionServerReport ， 它 们 分 别 
在 region 服 务 器 初始 化 并 向 它 的 master 节 点 报告 时 调用 ， 以 及 常规 报告 
状态 时 调用 。 


10.2.5 JVM 监 控 指 标 

当 用 户 需 要 优化 HBase 部 署 时 ， 调 优 JVM 的 参数 需要 专家 级 的 技 
巧 。 用 户 可 以 在 11.1 广 了 解 相 关 信 息 ， 本 市 将 介绍 用 户 可 以 从 监控 指标 
框 染 获取 到 的 各 个 服务 絮 进 程 的 相关 信息 。 每 个 HBase 进 程 都 会 搜集 和 
导出 有 用 的 JVYM 相 关 细 广 ， 例 如 ， 各 种 和 服务 妖 性 能 相关 的 JVM 内 部 
参数 ， 这 些 信息 反 过 来 可 以 用 来 帮助 调 优 HBase 集 群 部 署 。 

提供 的 监控 指标 可 以 分 为 以 下 几 类 。 


内 存 占 用 监控 指标 


用 户 可 以 得 到 正在 使 用 的 内 存 和 保证 可 以 由 JVM 使 用 的 内 存 的 信 
息 2 ， 包 括 堆 和 非 堆 内 存 的 使 用 情况 。 前 者 是 由 JVM 按 用 户 行为 管理 
肉 存 ， 同 时 会 定时 省 行 拉 级 回收 后 者 是 JVM 为 内 部 需求 占用 的 内 
子 ° 
垃圾 回收 监控 指标 

JVM 会 按 用 户 行为 管理 堆 内 存 并 运行 垃圾 回收 。gc count 监控 指标 
表示 垃圾 回收 的 次 数 ，gc time 监控 指标 是 上 次 轮 询 至 今 累 计 的 垃圾 回 
收 占用 的 时 间 。 


Wa, 
BA 
ae + 
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U ree mle, KES ESS SVM ETE, X 
些 暂停 在 某 些 需要 保证 服务 水 平 协议 的 系统 中 非常 难以 处 
理 。 


通常 情况 下 ， 这 种 暂停 只 会 持续 几 毫 秒 ， 但 是 有 时 候 会 
增加 到 数秒 。 当 和 暂停 达到 分 钟 级 之 后 就 会 产生 许多 问题 ， 有 
可 能 导致 region 服 务 右 持 有 的 ZooKeeper 租 约 过 期 ， 促 使 
master 采 取 相 应 的 规避 动作 。 © 


用 户 可 以 使 用 此 监控 指标 来 妃 踪 服务 絮 当 前 情况 和 垃 专 
回收 的 时 间 。 当 用 户 观 察 到 对 应 监控 指标 的 值 突然 增加 时 束 
必须 调查 原因 。 超 过 zookeeper .session. timeout 配置 
时 间 的 暂停 都 应 当 被 认为 是 系统 错误 。 


线程 监控 指标 


这 组 监控 指标 反映 了 一 组 和 Java 线 程 相关 的 参数 。 用 户 可 以 观察 到 
许多 与 线程 可 能 的 状态 相关 的 计数 器 ， 包 括 新 建 、 运 行 和 阻塞 等 。 


系统 事件 监控 指标 


最 后 ， 事 件 监控 组 包 售 了 日 志 子 系统 收集 的 各 种 监控 指标 ， 其 被 
归 入 到 了 JVM 的 监控 指标 类 别 中 (因为 没有 更 好 的 地 方 可 以 放置 ) 。 
它 提 供 了 各 种 日 志 > 级 别 的 消息 数目 。 例 如 ，log error 监控 指标 提供 了 和 目 
上 次 轮 询 至 今 ， 错 误 级 别 日 志 消 恩 的 数目 。 实 际 上 所 有 的 日 志 消 晨 数 
H 都 显示 的 是 上 次 轮 询 至 今 所 累积 的 {ALB o 


用 户 可 以 使 用 这 些 监控 指标 为 自己 的 支持 系统 提供 数据 ， 支 持 系 
统 可 以 绘制 时 间 趋势 图 或 按 固 定 国 值 触发 警告 。 理 解 这 些 数值 并 熟悉 
US 可 以 帮助 用 户 在 生产 实践 中 合理 利用 它 
| o 


10.2.6 _ info 监控 指标 


HBase 进 程 同样 提供 了 一 组 称 作 info 的 监控 指标 。 它 们 包含 了 进程 
的 固化 信息 ， 且 用 户 可 以 目 动 检查 这 些 值 。 表 10-4 列 举 了 这 此 监控 指标 
及 其 详细 描述 信息 。 这 些 监控 指标 只 能 通过 JMX 来 获取 。 


表 10-4 info 监控 指标 


ee 


使 
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前 使 用 的 HDFS 版 本 


HDFS3 引 用 HBase 使 用 的 hadoop-core-<X.Y-nnnn>.jar 文件 。 这 个 
JAR 文 件 通常 是 安装 包 中 已 经 提供 的 JAR 文 件 ， 但 是 用 户 可 以 根据 你 的 
安装 情况 定制 一 个 特定 的 JAR 文 件 。 返 回 的 值 如 下 所 示 。 


date:Wed May 18 15:29:52 CEST 2011 

version: 0.91.0-SNAPSHOT 

revision:1100427 
url:https://svn.apache.org/repos/asf/hbase/trunk 


user: larsgeorge 


hdfsDate:wed Feb 9 22:25:52 PST 2011 


hdfsVersion:@.20-append-r1057313 
hdfsRevision:1057313 


hdfsUrl:http://svn.apache.org/repos/asf/hadoop/common/branches/bran 
ch-0.20-append 


hdfsUser:Stack 


这 些 值 明显 不 能 用 图 来 显示 ,但 十 可 以 被 管理 员 用 来 确认 运行 配 
置 是 否 正确 。 


10.3 Ganglia 


HBase 直 接 从 Hadoop 继 承 了 对 Ganglia ® 的 原生 支持 ， 同 时 提供 了 
2 eee tin ° Ganglia H LA F 3% 
分 组 成 。 


Ganglia 监 控 守护 进程 (gmond) 


监控 守护 进程 需要 在 每 台 需 要 监控 的 机 器 上 运行 。 它 搜集 本 地 数 
据 ， 准 备 统计 信息 ， 然 后 补 其 他 系统 拉 取 。 它 积极 地 监控 通过 单一 或 
组 播 网 络 消 忌 传 播 的 主机 变化 情况 。 如 来 使 用 组 播 模式 ， 每 个 监控 守 
护 进 程 可 以 获取 集群 完整 状态 ， 所 有 的 服务 器 拥有 同样 的 组 播 地 址 。 


Ganglia 元 数据 守护 进程 (gmetad) 


元 数据 守护 进程 安装 在 一 个 中 心 节 点 上 ， 作 为 整个 集群 的 管理 节 
点 。 元 数据 守护 进程 从 一 个 或 多 个 监控 守护 进程 拉 取 数据 来 获取 当前 
整个 集群 的 状态 ， 然 后 使 用 RRDtool © 将 这 些 信息 存放 在 一 个 用 于 轮 询 
的 时 间 序 列 数 据 库 中 。 这 些 数据 可 以 被 其 他 客户 端 〈 如 网 页 前 端 ) 以 
XML 格式 获取 。 


Ganglia 也 支持 数据 报告 守护 进程 的 层次 结构 ， 每 个 层次 树 的 元 信 
息 守 护 进程 会 合并 它们 的 监控 守护 进程 。 更 高 层次 的 元 信息 守护 进程 
以 合并 多 个 集群 的 
ub ED j 
GangliaPHP 前 端 展 示 网 页 

Ganglia 支 持 的 网 页 前 端 从 元 信息 守护 进程 处 获取 合并 的 统计 信 
息 ， 然 后 以 HTML 的 形式 展现 。 它 使 用 RRDto01 将 时 间 序 列 数据 展示 
成 图 像 。 
10.3.1 安装 


Ganglia 的 安装 步骤 分 为 两 步 : 第 一 步 是 安装 配置 Ganglia 本 身 ， 第 
二 步 是 使 HBase 发 送 监控 指标 信息 到 Ganglia。 


1. Ganglia 相 关 步 又 


用 户 应 该 尝试 使 用 自身 操作 系统 发 行 版 文 持 的 预 编译 二 进 制 安装 
包 。 如 果 没 有 ， 可 以 从 网 站 上 下 载 源 代码 ， 并 在 本 地 构建 安装 。 例 
如 ， 在 基于 Debian 的 系统 中 ， 用 户 可 以 按照 以 下 步骤 进行 安装 。 

Ganglia 监 控 守 护 进程 。 在 硕 望 监控 的 所 有 节点 执行 以 下 步骤 。 


添加 用 户 专用 账号 : 


$ sudo adduser --disabled-login --no-create-home ganglia 


从 网 站 上 下 载 源 代码 包 ， 解 压 到 一 个 公共 位 置 : 


$ wget http://downloads.sourceforge.net/project/ganglia/ 


\ 


ganglia%20monitoring%20core/3.0.7%20%28Fossett%29/ganglia-3.0.7. 
tar.gz 


$ tar -xzvf ganglia-3.0.7.tar.gz -C /opt 


$ rm ganglia-3.0.7.tar.gz 


RASA MAAN: 


$ sudo apt-get -y install build-essential libapri-dev \ 


libconfuse-dev libexpati-dev python-dev 


pO 


现在 可 以 构建 并 安 狠 二 进 制 文件 : 


$ cd /opt/ganglia-3.0.7 


$ ./configure 


$ make 


$ sudo make install 


建立 配置 文件 ， 可 通过 如 下 方式 快速 生成 一 个 默认 的 配 


| 
Sh 
rau 


$ gmond --default_config > /etc/gmond.conf 


按照 如 下 内 容 在 /etc/gmod.conf 文件 中 修改 : 


globals { 
user = ganglia 


} 


cluster { 
name = HBase 


owner = "Foo Company" 


url = "http://foo.com/" 


global 定义 了 之 前 创建 的 用 户 账号 ，cluster 定义 了 集群 的 相关 信 
`。 上 默认 Ganglia 配 置 使 用 组 播 UDP 消 轧 ， 且 使 用 IP 地 址 239.2.11.71 来 通 
信 ， 这 适用 于 少 于 120 个 节点 的 集群 。 


EM 


组 播 与 单 播 的 对 比 


虽然 默认 的 监控 守护 进程 (gmond) 使 用 UDP 组 播 消 
妃 方 式 通信 ， 但 是 用 户 可 能 遇 到 一 些 没有 广播 环境 或 者 受 
其 他 因素 限制 的 环境 。 前 者 例如 使 用 基于 亚马逊 云 服务 吉 
的 集群 环境 EC2。 


男 一 个 已 知 因素 是 组 播 通常 只 能 满足 120 个 节点 以 下 
的 集群 要 求 。 如 果 遇 到 了 这 些 情况 ， 用 户 必 须 将 通信 模式 
从 组 播 调整 为 单 播 。 在 /etc/gmond.conf 文件 中 修改 以 下 选 
项 : 


udp_send_channel { 
# mcast_join = 239.2.11.71 


host = host0.foo.com 


port = 8649 
# ttl = 1 


udp_recv_channel { 
# mcast_join = 239.2.11.71 


port = 8649 
# bind = 239.2.11.71 


这 个 例子 假定 你 在 master 节 点 使 用 gmond 来 接受 其 他 
机 器 上 gmond 进程 的 数据 更 新 。 


host0.foo.com 需要 替换 成 master 的 主机 名 或 者 IP 
地 址 。 在 一 个 更 大 的 集群 中 ， 用 户 可 以 设置 在 每 个 物理 机 
器 上 启动 多 个 gmond 进程 。 通 过 使 用 这 种 方式 ， 用 户 可 以 
防止 只 有 一 个 gmond 处 理 提交 的 更 新 。 


同样 你 需要 修改 /etc/gmetad.conf 文件 来 设 定 指定 方 
点 ， 具 体 参 考 本 章 讨论 单 播 模式 的 内 容 。 


局 动 监控 守护 进程 : 


$ sudo gmond 
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一 人 通过 连接 本 地 来 测试 守护 进程 : 


$ nc localhost 8649 


这 会 打印 当前 集群 状态 的 原始 XML， 使 用 kill 命令 可 以 
停止 守护 进程 . 


Ganglia 元 数据 守护 进程 。 用 户 需 要 在 所 有 元 信息 守护 服务 器 的 广 
扩 寺 执行 以 下 步 又 ， 用 于 合并 下 游 的 监控 统计 数据 。 在 少 于 100 个 节 反 
的 集群 中 ， 通 并 只 需要 一 台 这 样 的 元 信息 服务 器 。 注 意 ， 因 为 服务 器 
需要 绘制 图 形 ， 所 以 需要 相应 的 处 理性 能 。 


添加 专用 的 用 户 账 号 : 


$ sudo adduser --disabled-login --no-create-home ganglia 


FRAI, RE EIA A oR: 


$ wget http://downloads.sourceforge.net/project/ganglia/ 


\ 


ganglia%20monitoring%20core/3.0.7%20%28Fosset t%29/ganglia- 
3.0.7.tar.gz 
$ 


tar -xzvf ganglia-3.0.7.tar.gz -C /opt 


$ rm ganglia-3.0.7.tar.gz 


安装 依赖 项 : 


$ sudo apt-get -y install build-essential libapri-dev libconfuse- 
dev \ 


libexpati-dev python-dev librrd2-dev 


现在 用 户 可 以 像 这 样 编译 并 安装 二 进 制 文 件 : 


$ cd /opt/ganglia-3.0.7 


$ ./configure --with-gmetad 


$ make 


$ sudo make install 


主意 ， 额 外 的 - -with-gmetad 参数 是 之 后 安装 必需 的 。 下 一 步 
先 复制 默认 的 gmetad.conf 文件 : 


$ cp /opt/ganglia-3.0.7/gmetad/gmetad.conf /etc/gmetad.conf 


修改 /etc/gmetad.conf 文件 : 


setuid_username "ganglia" 
data_source "HBase" host0.foo.com 


gridname "< Your-Grid-Name>" 


data_source 行 必须 包含 一 个 或 多 个 gmond 的 主机 名 或 IP 地 
址 。 


一 一 人 当 使 用 单 播 模式 时 ， 用 户 需要 指定 data_source 
为 实际 的 专用 gmond 服务 器 。 如 果 不 只 一 台 服 务 器 ， 用 户 需 
要 将 所 有 服务 器 都 列 出 ， 以 提供 节点 失效 保障 。 


pea 建 需要 的 路 径 ， 这 些 路 径 用 来 将 采集 的 数据 存储 到 轮 询 数 
牵 中 : 


$ mkdir -p /var/lib/ganglia/rrds/ 


$ chown -R ganglia:ganglia /var/lib/ganglia/ 


局 动 守 护 进 程 : 


$ gmetad 


需要 使 用 Kill 命令 关闭 守护 进程 . 

Gangliaweb 前 端 。 最 后 一 步 是 安装 Web 前 端 。 通 常 的 场景 是 在 运 
行 gmetad 进程 的 机 顺 上 进行 安装 。 同 时 至 少 要 傈 证 它 能 读 取 由 
gmetad 创建 的 轮 询 分 时 数据 库 。 


首先 ， 安 装 所 和 需 的 库 : 


$ sudo apt-get -y install rrdtool apache2 php5-mysql libapache2- 
mod-php5 php5-gd 


Ganglia 包 含 必 备 的 PHP 文 件 ， 用 户 可 以 按 如 下 方式 复制 它们 : 


$ cp -r /opt/ganglia-3.0.7/web /var/www/ganglia 


现在 启动 Apache: 


$ sudo /etc/init.d/apache2 restart 


如 果 用 户 已 经 将 ganglia 了 于 域名 指定 到 了 运行 gmetad 的 服务 
厂 ， 则 用 户 可 以 通过 网 址 http:/ganglia.foo.com/ganglia 来 浏览 网 页 前 
端 。 因 为 用 户 还 需要 安装 HBase 并 将 其 监控 指标 信息 推送 至 Ganglia， 所 
以 目前 用 户 只 会 看 到 以 简单 图 形 显示 的 天 于 服务 如 的 监控 信息 ， 推 过 


HBase 的 监控 数据 是 接 下 来 将 要 讨论 的 内 容 。 


2. HBase 相 关 步 又 


HBase 和 Ganglia 集 成 的 关键 部 分 是 GangiaContext 类 ， 该 类 会 将 
服务 絮 进 程 的 监控 指标 信息 发 送 到 Ganglia 监 控 守 护 进 程 。 此 外 在 conf/ 
目录 下 有 一 个 名 为 hadoop- metrics. properties 的 文件 ， 需 要 修改 配置 文 
件 来 启用 上 下 文 。 参 考 以 下 内 容 编 辑 配 置 文件 : 


# HBase-specific configuration to reset long-running stats 

#(e.g. compactions). If this variable is left out,then the default 
# is no expiration. 

hbase.extendedperiod = 3600 


# Configuration of the "hbase" context for ganglia 
# Pick one: Ganglia 3.0(former)or Ganglia 3.1(latter) 
hbase .class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
hbase. period=10 


hbase. servers=239.2.11.71:8649 


jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
jvm.period=10 


jvm.servers=239.2.11.71:8649 


rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext 


#rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
rpc .period=10 


rpc.servers=239.2.11.71:8649 


pO 


Wi a. 

UÈ 之 前 提 过 HBase 当 前 版 本 (0.91.X) 只 支持 Ganglia 
3.0.x， 所 以 可 否 让 用 户 在 G6angliaCcontext 和 
GangliaContext 31 中 选择 呢 ? 某 些 HBase 的 发 行 版 本 已 
经 包含 了 对 Ganglia 3.1.x 文 持 的 补丁 。 当 用 户 确认 目 己 的 
HBase 版 本 已 经 有 了 相关 支持 〈 如 CDH3 已 经 文 持 了 ) Ja, E 
使 用 这 个 对 应 的 上 下 文 。 


当 用 户 使 用 单 播 消 息 时 ， 之 前 默认 设置 的 239.2.11.71 组 播 地 址 需要 
被 替换 成 指定 gmond 机 器 的 主机 名 或 了 地址 。 例 如 : 


hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
hbase. period=10 
hbase.servers=host@®.yourcompany.com:8649 


.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
.period=10 
.servers=host0. yourcompany.com: 8649 


.cClass=org.apache.hadoop.metrics.ganglia.GangliaContext 
.period=10 
.servers=host®.yourcompany.com: 8649 


一 旦 用 户 完成 了 这 个 配置 文件 的 修改 ， 用 户 需 要 重启 HBase 集 群 。 
ee eee ，Ganglia 会 目 动 帮 用 户 获 取 所 有 监控 指 
aN o 


10.3.2 用 法 


B 一 旦 用 户 刷 新 Web 前 端 网 页 ， 就 会 看 到 Ganglia 的 主页 ， 如 图 10-3 所 
示 “。 


Cluster Report for Sat, 14 May 2011 20:39:48 +0200 


Metric | ndare regionterser blockCachelinano I) Last (hour I) Sorted | descending I) 


Grid > HBase Local > (7-00 a Wade a 


Overview of HBase Local 
CPUs Total: HBase Local Load last howr HBase Local CPU last hour 
Hosts up: 1 
Hosts down 9 


Avg Load (15,5, lank 
8%, 7%, 6% | 

I et : 
2011-05-14 20:39 “havea "geese rarer 

oot 门 Hides BCP Wuning Processes 


Cluster Load Percentages nt mae 


Show imis: yas © no O | HBase Local hbase.regionserver blockCacheHitRatio last hour sorted descending | Colom « 司 


s * 
° sej | | | 
= b 
i540 2200 2020 
E hbase. regiorserver DlockCa 


(Nodes colored by I-minute kad) | Legend 


Canga Web Frortend version 3.0.7 Chack for Updates 
Ginga Web Backend gmetad) version 3.0.7 Check for Updates 
Downloading and parsing ganglia's XML troo took 0,042. 
images created wèh RAD Too! version 1.4.3. 


图 10-3 ”Ganglia 提 供 的 基于 Web 前 端的 各 种 监控 图 表 


用 户 可 以 在 页 面 上 更 改 监控 指标 、 时 间 跨 度 和 排序 方式 ， 系 统 会 
自动 重 载 页 面 内 容 。 在 配置 比较 低 的 机 器 上 ， 用 户 可 能 需要 等 待 一 段 
eae alee eee ge 下 拉 框 中 包括 了 所 有 可 用 的 
监控 指标 。 


最 后 ， 图 10-5 是 一 个 如 何 使 用 监控 指标 来 查找 问题 根源 的 例子 。 这 
个 图 像 显 示 了 每 天 午夜 一 台 人 负载 过 重 的 服务 占 的 垃圾 回收 时 间 突然 变 
长 ， 这 将 导致 合并 队列 长 度 也 显著 提高 。 


Ganglia 和 它 绘制 出 的 图 表 是 一 种 非 肖 有 效 的 、 可 回顾 并 三 找 问题 
根源 的 工具 。 不 过 它 只 能 通过 定量 数据 来 提供 帮助 ， 例 如 ， 当 问题 已 


经 发 生 后 对 集群 问题 进行 分 机 。 接 下 来 我 们 将 对 用 户 展示 如 何 使 用 定 
量 文 持 系统 来 补充 一 些 图 表 。 


ESR 
一 人 看 起 来 显然 是 写 负载 过 重 导 致 了 IO 扰动 ， 但 当 读 
负载 很 重 时 ， 系 统 也 会 产生 相似 的 行为 (虽然 不 是 很 频 

繁 ) 。 例 如 ， 后 台 运 行 的 major 合 并 可 能 累积 很 多 需要 重 写 的 
存储 文件 。 当 没有 明显 的 来 自 客户 端的 写 负 载 时 ， 这 也 会 对 
读 操作 的 响应 时 间 有 不 利 的 影响 。 


hbase. master.splitSize_avg_time 

hbase. master.splitSize_num_ops 

hbase. master.splitTime_avg_time 

hbase. master.splitTime_num_ops 
hbase.regionserver.blockCacheCount 

hbase. regionserver.blockCacheEvictedCount 
hbase.regionserver.blockCacheFree 
hbase.regionserver.blockCacheHitCachingRatio 
hbase.regionserver.blockCacheHitCount 
hbase. regionserver.blockCacheHitRatio 
hbase.regionserver.blockCacheMissCount 
hbase. regionserver.blockCacheSize 

hbase. regionserver.compactionQueueSize 
hbase. regionserver.compactionSize_avg_time 
hbase. regionserver.compactionSize_num_ops 
hbase. regionserver.compactionTime_avg_time 
hbase. regionserver.compactionTime_num_ops 
hbase. regionserver.flushQueueSize 

hbase. regionserver.flushSize_avg_time 
hbase. regionserver.flushSize_num_ops 
hbase.regionserver.flushTime_avg_time 
hbase. regionserver.flushTime_num_ops 
hbase.regionserver.fsReadLatency_avg_time 
hbase. regionserver.fsReadLatency_num_ops 
hbase. regionserver.fsSyncLatency_avg_time 
hbase. regionserver.fsSyncLatency_num_ops 
hbase. regionserver.fsWriteLatency_avg_time 
hbase. regionserver.fsWriteLatency_num_ops 
hbase. regionserver.memstoreSizeMB 

hbase. regionserver.readRequestsCount 
hbase. regionserver.regions 

hbase. regionserver.requests 

hbase. regionserver.storefileindexSizeMB 
hbase. regionserver.storefiles 

hbase. regionserver.stores 

hbase. regionserver.writeRequestsCount 
jvm. metrics.gceCount 
jvm.metrics.gcTimeMillis 
jvm.metrics.logError 

jvm.metrics.logFatal 

jvm.metrics.loginfo 

jvm.metrics.logWarn 

jvm. metrics. memHeapCommittedM 
jvm.metrics. memHeapUsedM 

jvm.metrics. memNonHeapCommittedM 
jvm.metrics.memNonHeapUsedM 

jvm. metrics.threadsBlocked 

jvm. metrics.threadsNew 
jvm.metrics.threadsRunnable 

jvm. metrics.threadsTerminated 

jvm. metrics.threadsTimedWaiting 

jvm. metrics.threadsWaiting 

inar fiftean 


图 10-4 下 拉 框 提供 的 各 个 监控 指标 入 口 


jvm.metrics.gcTimeMillis 


0k 
Sat 12:00 
M@iregionserver - 1 


hbase. regionserver. compactionQueueSize 


ok 
Sat 12:00 
Mregionserver - 


图 10-5 图 形 可 以 帮助 用 户 整 理 相关 


dint 


件 的 问题 
10.4 JMX 


Java Management Extensions 技 术 是 Java 应 用 程序 导出 当前 状态 的 标 
准 。 除 了 之 前 已 经 看 到 的 Ganglia 和 监控 指标 上 下 文 提 供 的 功能 之 外 ， 


JMX 还 可 以 提供 一 些 操作 。 这 些 操作 允许 用 户 在 一 个 启用 了 JMX 的 Java 
进程 上 远程 调用 一 些 功能 。 


在 通过 JMX 访 问 HBase 进 程 之 前 ， 用 户 必须 启用 它 。 此 项 工作 可 以 
通过 在 $HBASE_HOME/conf/hbase-env.sh 配置 文件 中 去 掉 和 修改 以 下 行 
注释 来 完成 。 


# Uncomment and adjust to enable JMX exporting 

# See jmxremote.password and jmxremote.access in 
$JRE_HOME/1ib/management to 

# configure remote password access. More details at: 

# 
http://java.sun.com/javase/6/docs/technotes/guides/management/agent 
.html 

# 

export HBASE_JMX_BASE="-Dcom.sun.management .jmxremote.ssl=false \ 


-Dcom. sun . management . jmxremote.authenticate=false" 


export HBASE_MASTER_OPTS="$HBASE_JMX_BASE \ 


-Dcom. sun . management . jmxremote.port=10101" 


export HBASE_REGIONSERVER_OPTS="$HBASE_JMX_BASE \ 


-Dcom. sun . management . jmxremote.port=10102" 


export HBASE_THRIFT_OPTS="$HBASE_JMX_BASE \ 


-Dcom. sun . management . jmxremote.port=10103" 


export HBASE_ZOOKEEPER_OPTS="$HBASE_JMX_BASE \ 


-Dcom. sun . management . jmxremote.port=10104" 


这 样 会 在 没有 安全 保证 的 情况 下 局 用 JMX 远 程 连接 支持 。 假 设 大 
多 数 情况 下 HBase 集 群 在 防火 墙 外 无 法 被 访问 ， 则 没有 必要 进行 安全 验 
证 。 启 用 JMX 的 安全 检查 机 制 会 使 得 安装 过 程 稍微 麻烦 一 些 。® 用 户 
需要 重启 HBase 来 激活 这 些 修改 。 


SARA aC, EAM RETR PVE OE ADVE RCH, 
而 且 还 会 将 它们 导出 为 所 谓 的 JMX 属 性 。 上 文 提 到 了 如 果 用 户 想 使 用 
JMX 读 取 监 控 指 标的 值 ， 用 户 至 少 需要 通过 给 period 赋 个 合适 的 值 来 激 
活 NullContextwithUpdateThread 。 例 如 ， 最 基本 的 hadoop- 
metrics.properties 文件 可 能 包含 : 


hbase.class=org.apache.hadoop.metrics.spi.NullContextwWithUpdateThre 
ad 
hbase. period=60 


jvm.class=org.apache.hadoop.metrics.spi.NullContextWithUpdateThread 
jvm.period=60 


rpc.class=org.apache.hadoop.metrics.spi.NullContextwithUpdateThread 
rpc .period=60 


这 将 确保 所 有 的 监控 指标 每 隔 10 秒 更 新 一 次 ， 同 时 用 户 可 以 通过 
JMX 属 性 检索 到 监控 指标 的 值 。 不 做 这 些 将 会 导致 所 有 的 JMX 属 性 没 
有 实际 作用 。 然 而 ， 用 户 也 可 以 正常 使 用 JMX 操 作 。 与 此 同时 ， 如 果 
用 户 已 经 启用 了 其 他 上 下 文 ， 如 GangliaContext ， 这 就 足够 了 。 


JMX 使 用 managed beans ( 即 MBeans) 的 概念 ， 用 来 提供 特定 的 属 


性 和 操作 和 集合。 监控 指标 框架 提供 的 监控 指标 上 下 文 和 和 JMX 导 出 的 
MBeans 有 些 相 同 的 功能 。 这 些 MBeans 用 以 下 的 方式 进行 声明 : 


hadoop:service=< service-name>,name=< mbean-name> 


下 面 的 MBeans 是 由 HBase 的 各 种 进程 提供 的 。 


hadoop:service=Master, name=MasterStatistics 


提供 访 四 master 监 控 指 标的 功能 ， 如 10.2.2 太 所 介绍 的 内 容 。 


hadoop:service=RegionServer, name=RegionServerStatistics 


提供 访 Hregion 监 控 指 标的 功能 ， 如 10.2.3 节 所 介绍 的 内 容 。 


hadoop:service=HBase, name=RPCStatistics-< port> 


提供 访问 RPC 监 控 指 标的 功能 ， 正 如 10.2.4 市 描述 的 。 注 意 命名 中 
的 端口 部 分 可 能 是 动 态 的 ， 在 用 户 修改 配置 并 指定 master 和 region 服务 
厂 绑 定 的 端口 时 ， 这 部 分 内 容 会 随 之 变化 。 


hadoop:service=HBase, name=Info 


提供 访问 第 规 监 控 指 标的 功能 ， 如 10.2.6 太 所 搬 述 的 内 容 。 


MasterStatistics 、RegionServerStatistics 和 
RPCStatistics 这 些 MBeans 也 提供 了 一 个 操作 : resetAllMinMax 
。 使 用 这 个 操作 可 以 重 置 已 经 观测 到 的 时 间 变 化 率 (TVR ) 的 最 小 和 
最 大 完成 时 间 。 


用 户 有 很 多 方式 来 访问 JMX 属 性 和 操作 ， 以 下 介绍 两 种 。 
10.4.1 JConsole 
Java 的 发 行 版 中 有 一 个 名 为 JConsole 的 帮助 工具 ， 它 可 以 用 来 连接 


本 地 或 远程 的 Java 进 程 。 假 设 用 户 在 系统 查找 路 径 中 已 经 包括 了 
$JAVA_HOME 目 孙 ， 用 户 可 以 使 用 以 下 方式 来 局 动 它 : 


$ jconsole 


一 旦 应 用 打开 ， 它 会 显示 一 个 对 话 框 来 让 用 户 选 择 连接 本 地 还 是 
远程 的 进程 。 图 10-6 展 示 了 这 个 对 话 框 。 


用 户 可 以 用 它 连接 本 地 或 者 远程 的 进程 。 因 为 用 户 已 经 配置 了 所 
有 HBase 进 程 监听 特定 的 端口 ， 所 以 推荐 用 户 将 它们 作为 远程 进程 访 
问 。 这 样 做 的 好 处 是 ， 即 使 当 进 程 ID 改变 时 ， 用 户 仍然 可 以 重新 连接 


一 个 远程 的 服务 器 。 但 如 果 按 本 地 连接 方式 的 话 ， 用 户 就 不 能 这 样 做 
了 ， 因 为 连接 时 受 限 于 前 面 说 的 进程 ID。 


通过 使 用 JMX 服 务 的 URL 可 以 连接 远程 HBase 进 程 ， 其 格式 如 下 : 


service: jmx:rmi:///jndi/rmi://< server-address>:< port> 


/jmxrmi 


这 里 使 用 Java Naming and Directory Interface (JNDI) 注册 并 查找 
相应 的 必 备 细节 信息 ， 以 及 指定 连接 访问 端口 。 某 些 情况 下 ， 用 户 可 
能 在 同一 个 物理 服务 右上 运行 多 个 Java 进 程 ， 例 如 ，Hadoop 的 
NameNode 和 HBase 的 master， 此 时 每 个 服务 进程 都 需要 分 配 一 个 唯一 的 
端口 。 查 阅 hbase-env.sh 文件 中 设 定 的 各 个 进程 的 端口 。 例 如 ，master 
监听 10101 端 口 ，region 服 务 器 监听 10102 端 口 。 因 为 用 户 只 能 在 一 个 物 
理 机 絮 上 运行 一 个 region 服 务 姻 ， 所 以 可 以 使 所 有 region 服 务 器 使 用 一 
个 相同 的 端口 。 这 种 情况 下 可 以 通过 修改 <server-address> 一 为 
主机 名 或 I1P 地 址 一 一 来 构造 一 个 唯一 的 address:port X ° 


一 旦 连接 到 进程 ， 用 户 会 看 到 一 个 包含 了 它们 各 种 细 世 信息 的 多 
标签 页 窗口 。 图 10-7 显 示 了 连接 进程 之 后 的 初始 屏幕 。 不 断 更 新 的 各 种 
图 表 对 了 解 服务 硕 的 当前 状态 来 说 非常 有 用 。 


New Connection 


O Local Process: 


org.apache.hadoop.mapred. TaskTracker 
org.jruby.Main /projects/opensource/hbase-trun... 
org.apache.zookeeper.server.quorum.QuorumPee... 
org.apache.hadoop.hdfs.server.datanode.DataNode 
org.apache.hadoop.hdfs.server.namenode.Secon... 
org.apache.hadoop.mapred.jobTracker 


= 


加 Remote Process: 


Usage: <hostname>:<port> OR service:jmx: <protocol> :<sap> 


Username: Password: | | 
EDB 


图 10-6 ”JConsole 启 动 时 连接 本 地 或 者 远程 的 进程 


Connection Window Help 


Memory Threads Classes VM Summary Means 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
20:48 20:49 20:50 20:51 20:52 20:48 20:49 20:50 20:51 20:52 


Used: 41.4 Mb Committed: 85 Mb Max: 1.0 Gb live: 71 Peak: 73 Total: 1.229 


-CPU Usage 


————_—_—_—— eet ———— ee 
20:48 20:49 20:50 20:51 20:52 20:48 20:49 20:50 2051 20:52 
Loaded: 2,898 Unloaded: 0 Total: 2,898 _CPU Usage: 0.1% 


图 10-7 ”JConsole 提 供 了 一 个 运行 时 的 Java 进 程 的 内 部 情况 


图 10-8 是 一 个 MBeans 标 签 页 的 截屏 。 用 户 可 以 观察 已 注册 的 
managed bean 提 供 的 各 种 操作 和 属性 。 在 图 中 用 户 可 以 看 到 
compactionQueueSize 监控 指标 的 内 容 。 


Connection Window Help 


| Overview Memory Threads Classes VM Summary Maean 引 一 一 全 

aneges ..NNS"—#' 

站 -Attribute value 
flushTimeNumOps 
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flushTimeMinTime 


flushTimeMaxTime 
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swrefiles p MBeanAttributeinfo == 
blockCacheEvictedCount Name -一 一 - 
storefileindexSizeMB ect wes 
fsSyncLatencyNumOps Description NeDeseription 
fsSyncLatencyAvgTime Readable 
fsSyncLatencyMinTime Writable 
fsSyncLatencyMaxTime -lits 
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flushSizeNurmOps 
flushSizeAvgTime |-Descriptor 
flushSizeMinTime Emm 
flushSizeMaxTime 

Jesiz 


requests 
> Operations 
> E Replication 
> BB java.lang 
> GB java.util. logging 
i 


图 10-8 ”通过 MBeans 标 签 页 观察 各 种 HBase 进 程 监控 指标 


各 种 选项 及 不 同 标签 页 内 容 的 介绍 可 以 查看 官方 文档 ( 
jo omicle Orine! Ges errotes alent 
onsole.html ) ° 


10.4.2 JMX 远 程 API 


获取 相同 信息 的 另 一 种 方式 是 JMX Remote API， 它 通过 使 用 远程 
方法 调用 (remote method invocation, RMI) 2 来 实现 。 还 有 很 多 有 用 
的 工具 ， 它 们 也 实现 了 可 以 访问 远程 受 控 Java 进 程 的 客户 端 。 甚至 
Hadoop 工 程 也 在 致力 于 为 其 添加 一 些 基本 支持 。 


下 面 我 们 将 使 用 JMXToolkit 工 具 作为 一 个 例子 ， 源 代码 可 以 从 网 站 
https://github.com/larsgeorge/jmxtoolkit 获取 。 用 户 需 要 配置 git 命令 行 工 
具 和 Apache Ant 工 具 。 克 隆 源 代码 库 ， 同 时 编译 构建 工具 : 


$ git clone git://github.com/larsgeorge/jmxtoolkit.git 


Initialized empty Git repository in jmxtoolkit/.git/ 


$cd jmxtoolkit 


$ ant 


Buildfile: jmxtoolkit/build. xml 


jar: 
[jar] Building jar: /private/tmp/jmxtoolkit/build/hbase- 
jmxtoolkit.jar 


BUILD SUCCESSFUL 
Total time: 2 seconds 


编译 构建 进程 完成 之 后 ， 用 户 可 以 通过 调用 -h 开关 选项 来 观察 提 
供 的 功能 : 


$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit.JMXToolkit -h 


Usage: JMXToolkit [-a < action>] [-c < user>] [-p < password>] 
[-u url] [-f < config>] [-o < object>] [-e regexp] 
[-i < extends>] [-q < attr-oper>] [-w < check>] 
[-m < message>] [-x] [-1] [-v] [-h] 


-a < action> Action to perform,can be one of the following 
(default: query) 


create Scan a JMX object for available attributes 


query Query a set of attributes from the given objects 
check Checks a given value to be in a valid range(see -w 


below) 
encode Helps creating the encoded messages(see -m and -w 
below) 
walk Walk the entire remote object list 
-h Prints this help 


FAP By LME JMX Toolkit ig B77 Era By REAPER ° 


用 户 只 需要 知道 希望 获取 的 MBeans 属 性 或 操作 的 完整 名 字 。 不 过 由 于 
目前 还 没有 相应 的 列表 ， 所 以 这 并 不 是 一 项 简单 的 工作 。 建 立 一 个 基 
en ea eee 


$ vim hbase. properties 


$ cat hbase.properties 


;HBase Master 

[hbaseMasterStatistics ] 

@object=hadoop:name=MasterStatistics, service=Master 

@url=service: jmx:rmi:///jndi/rmi://${HOSTNAME1 | Llocalhost}:10101/jmx 
rmi 

@user=${USER|controlRole} 

@password=${PASSWORD | password} 

[hbaseRPCMaster ] 
@object=hadoop:name=RPCStatistics -60000, service=HBase 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME1 | localhost }:10101/jmx 
rmi 

@user=${USER|controlRole} 

@password=${PASSWORD | password} 


;HBase RegionServer 

[hbaseRegionServerStatistics ] 
@object=hadoop:name=RegionServerStatistics, service=RegionServer 
@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME2 | Llocalhost}:10102/jmx 
rmi 

@user=${USER|controlRole} 

@password=${PASSWORD | password} 

[hbaseRPCRegionServer ] 
@object=hadoop:name=RPCStatistics -60020, service=HBase 

@url=service: jmx:rmi:///jndi/rmi: //${HOSTNAME2 | Llocalhost}:10102/jmx 


rmi 
@user=${USER|controlRole} 
@password=${PASSWORD | password} 


;HBase Info 

[hbaseInfo ] 

@object=hadoop:name=Info, service=HBase 

@url=service: jmx:rmi:///jndi/rmi://${HOSTNAME1 | Llocalhost}:10101/jmx 
rmi 

@user=${USER|controlRole} 

@password=${PASSWORD | password} 


;EOF 


这 个 配置 可 以 被 作为 参数 送 入 工具 中 ， 以 用 来 检索 列 出 的 MBeans 
的 属性 和 操作 。 结 果 修 存放 在 myjmx.properties F: 


$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop. hbase. jmxtoolkit .JMXToolkit \ 


-f hbase.properties -a create -x > myjmx.properties 


$ cat myjmx.properties 


[hbaseMasterStatistics | 
@object=hadoop:name=MasterStatistics, service=Master 
@url=service: jmx:rmi:///jndi/rmi://${HOSTNAME1 | Llocalhost}:10101/jmx 
rmi 

@user=${USER|controlRole} 
@password=${PASSWORD | password} 
splitTimeNumOps=INTEGER 

splitTimeAvgTime=LONG 

splitTimeMinTime=LONG 

splitTimeMaxTime=LONG 

splitSizeNumOps=INTEGER 

splitSizeAvgTime=LONG 

splitSizeMinTime=LONG 

splitSizeMaxTime=LONG 

cluster_requests=FLOAT 

*resetAl1MinMax=VOID 


ee 
“一 ”这些 命令 假设 用 户 以 伪 分 布 式 和 本 地 HBase 实 例 方 
式 来 运行 集群 。 当 使 用 远程 服务 来 运行 时 ， 用 户 需要 简单 地 
修改 模板 属性 文件 中 的 变量 。 例 如 ， 在 上 壕 命 令 中 添加 如 下 
内 容 即 可 指定 一 个 主机 名 (或 者 IP 地 址 ;到 相应 的 主 或 从 节 


点 o 
/YY 


-DHOSTNAME1=master.foo.com -DHOSTNAME2=slavei.foo.com 


当 用 户 查 看 新 创建 的 myjmx.properties 文件 时 ， 会 看 到 所 有 前 文 已 
经 介绍 过 的 监控 指标 。 操 作 都 是 以 * ( 即 星 号 ) 为 前 组 。 


现在 用 户 可 以 在 命令 行 中 使 用 这 性 文件 来 请 


求 监控 指标 的 值 。 在 下 面 的 例子 中 ， 个 得 询 是 请 求 相关 属性 的 
值 ， 第 二 个 则 船 发 了 一 个 操作 (这 神情 况 下 没有 和 返回 值 ) 。 


$ java -cp build/hbase-jmxtoolkit.jar \ 
org.apache.hadoop.hbase. jmxtoolkit .JMXToolkit \ 


-f myjmx.properties -o hbaseRegionServerStatistics -q 
compact ionQueueSize 


compactionQueueSize: 0 


$ java -cp build/hbase-jmxtoolkit.jar \ 


org.apache.hadoop.hbase. jmxtoolkit .JMXToolkit \ 


-f myjmx.properties -o hbaseRegionServerStatistics -q 
*resetAl1MinMax 


创建 完 一 个 这 样 的 属性 文件 后 ， 用 户 可 以 检索 单个 值 或 者 整个 
MBeans 的 值 ， 同 时 也 可 以 触发 一 些 操 作 。 这 是 个 很 重要 的 工具 ， 它 可 


以 用 来 快速 扫描 爱 管 理 的 进程 并 记录 所 有 可 用 信息 ， 查 询 JMX MBeans 
可 以 将 用 户 从 主观 腾 断 中 解脱 出 来 。 


JMXToolkit 和 Cacti 


一 旦 JMXToolkit JAR 被 创建 了 ， 它 就 可 以 在 一 个 Cacti 
服务 器 中 使 用 。 第 一 步 ， 复 制 JAR 包 到 Cacti 的 脚本 目录 
(可 能 安装 时 有 所 差异 ， 用 户 需 要 确认 目录 正确 ) 。 下 一 
步 ， 解 压 脚 本 : 


$ cd $CACTI_HOME/scripts 


$ unzip hbase-jmxtoolkit.jar bin 


/ * 
$ chmod +x bin 


/ 大 


一 旦 脚本 解压 完毕 ， 用 户 可 以 测试 其 基本 功能 : 


$ bin/jmxtkcacti-hbase.sh host0.foo.com hbaseMasterStatistics 


splitTimeNumOps:0 splitTimeAvgTime:0 splitTimeMinTime: -1 


splitTimeMaxTime:0\ 
splitSizeNumOps:0 splitSizeAvgTime:0 splitSizeMinTime: -1 
splitSizeMaxTime:0 \ 
cluster_requests:0.0 


JAR 也 包含 一 组 Cacti 模 版 8 ， 用 户 可 以 将 其 导入 ， 并 
用 来 为 HBase 和 Hadoop 的 JMX MBeans 提 供 的 变量 进行 初 
步 的 可 视 化 工作 。 注 意 ， 这 些 模版 使 用 上 壕 脚 本 并 通过 
JMX 获 取 监 控 指 标的 值 。 


在 Cacti 中 ， 创 建 图 像 与 Ganglia 相 比 更 复杂 ， 后 者 可 以 
动态 添加 来 目 于 监控 守护 进程 推送 的 监控 指标 。Cacti 拥 有 
一 系列 PHP 脚 本， 这 些 脚本 用 来 批量 将 集群 中 的 服务 紫 添 
DE 


10.5 Nagios 


Nagiosze— DE ZEA > FRR ARES SAAS RAY E PERE 
ASC FFL o CERAMAH Bue) i Past on Bl AB Et AT PCB e — E. 
超过 病 值 ， 它 将 开局 相应 的 规避 动作 ， 包 括 发 送 电 子 邮 件 、 打 电话 、 
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Nagios 中 的 典型 检测 项 目 可 以 是 其 自身 以 插件 形式 提供 的 ， 也 可 以 
是 用 户 添 加 的 脚本 ， 且 脚本 必须 返回 特定 程序 退出 值 并 将 结果 打印 到 
标准 输出 。 用 户 可 以 使 用 JMX 将 Nagios 和 HBase 集 成 到 一 起 ， 有 很 多 可 
选 的 方法 ， 其 中 包括 前 文 提 到 过 的 JMXToolkit 。 


JMXToolkit 的 优点 在 于 ， 用 户 制 作 了 包含 所 有 属性 和 操作 的 属性 文 
件 之 后 ， 束 可 以 添加 Nagios 或 者 其 他 监控 工具 了 ， 但 是 它们 必须 使 用 和 
Nagios 相 同 的 退出 代码 和 标准 输出 消息 。 接 下 来 ， 如 采用 户 需 要 执行 并 
修改 检测 一 个 不 同 的 值 时 ， 只 需要 编辑 一 下 属性 文件 。 例 如 : 


attributeXYZ=INTEGER|0:0K%3A%20%7BO%7D | 2: WARN%3A%20%7B0%7D:80:< | \ 


1: FAILED%3A%20%7BO0%7D:95:< 
*operationABC=FLOAT |0|2::0.1:>=|1::0.5:> 


使 用 之 前 安装 Cacti 相 同 的 步 又， 用 户 束 可 以 将 Nagios 检 测 项 连接 
到 拥 供 的 JMXToolkit 脚 本 上 “。 如 采用 户 要 在 属性 文件 中 定义 检测 项 ， 册 
仅仅 需要 设 定 查询 的 对 象 、 属 性 或 者 操作 。 如 果 用 户 没 有 上 自 定 义 检测 
项 ， 则 可 以 按照 以 下 方式 设 定 Nagios 中 的 检测 项 : 


$ bin/jmxtknagios-hbase.sh host0.foo.com 
hbaseRegionServerStatistics \ 


compact ionQueueSize 
"@:0K%3A%20%7B0%7D | 2: WARN%3A%20%7B0%7D:10:>=| \ 


1: FAIL%3A%20%7B0%7D:100:>" 


OK: 0 


注意 ，JMXToolkit 也 有 相应 操作 来 将 文本 编码 成 合适 的 格式 。 


显然 ， 使 用 JMXToolkit 只 是 众多 选择 中 的 一 种 。 关 键 的 是 ， 可 视 化 
摘 述 集群 和 监控 集群 对 于 集群 的 维护 是 非常 重要 的 ， 另 一 方面 ， 它 可 
以 帮助 用 户 更 容易 地 人 奶 踩 问题。 推荐 用 户 在 项 目的 早期 吕 部 署 实现 以 
上 两 项 功能 ， 同 时 还 推荐 用 户 使 用 反映 真实 情况 的 负载 来 测试 系统 ， 
因为 这 样 做 之 后 用 户 既 熟悉 了 图 形 意义 ， 又 了 解 了 如 何 分 析 它 们 。 它 
还 能 帮助 用 户 设 定 合理 的 国 值 ， 并 找 出 对 应 的 上 界 和 下 界 ， 这 将 为 用 
尸 在 随后 的 生产 环境 中 减少 很 多 麻烦 。 


@ JMX 是 Java Management Extensions 的 首 字 母 缩 写 ， 这 是 一 种 基于 
Java 技 术 ， 目 的 是 方便 用 户 构建 监控 和 管理 应 用 的 解决 方案 。 详 细 信息 
参见 项 目 网 站 ( 
http://www.oracle.com/technetwork/java/javase/tech/javamanagement- 
140525.htm\) ， 用 户 也 可 以 参考 10.2.5 订 。 


© 参见 线 上 官方 文档 MemoryUsage ( 
http://download.oracle.com/javase/61docs/api/java/lang/management/Memo 


ryUsage/html ) 来 了 解 使 用 “used> 和 分 配 的 “committed” 内 存 的 含义 。 


© “HBase 开 发 小 组 亲切 地 称 这 种 场景 为 朱丽叶 停顿 一 master ( 罗 密 
Ex) 提前 假设 region 服 务 器 (朱丽叶 ) 死亡 ， 而 她 其 实 只 是 在 休眠 ， 并 
因此 采取 了 一 些 激烈 的 行动 〈 恢 复 ) 。 当 服务 器 重新 醒 来 ， 她 发 现 出 
现 了 一 个 巨大 的 错误 并 结束 了 自己 的 生命 。 这 种 场景 会 产生 一 部 伟大 
的 戏剧 ， 但 却 是 一 个 痛苦 的 故障 场景 ! ”( 
http://www.cloudera.com/blog/2011/02/avoiding-full-gcs-in-hbase-with- 
memstore-local-allocation-buffers-part-1/ ) ° 


@ Ganglia 是 一 种 分 布 式 可 扩展 的 适合 大 规模 集群 使 用 的 监控 系统 ， 参 
考 项 目 网 站 ( http:/ganglia.infol ) 可 获取 项 目 历史 和 目标 等 相关 信 


A 


© 参见 RRDtool 项 目 网 站 ( http:/www.mtrg.org/rrdtool/ ) 来 获取 细节 信 
自 。 


© HBase 监 控 指 标 网 页 ( http://hbase.apache.org/metrics.html ) 有 如 何 
添加 密码 及 访问 证 书 文 件 的 介绍 。 


D 参考 官方 文档 中 的 详细 信息 ( 
http://www.oracle.com/technetwork/java/java/Javasetech/Tndex-jsp- 
136424.html ) ° 


参见 HADOOP-4756 ( http://issues.apache.org/jira/browse/HADOOP- 
4756) ° 


@ 由 于 完成 本 书 时 模板 已 经 有 些 陈 旧 了 ， 不 过 还 是 能 与 较 新 的 HBase 版 
本 配合 使 用 。 


第 11 章 ”性 能 优化 


现在 ， 我 们 已 经 了 解 了 如 何 安装 和 使 用 集群 。 为 了 使 HBase 能 够 
如 预期 一 样 运 行 ， 还 需要 调整 一 些 配 置 。 这 一 革 将 会 列 出 大 量 的 技巧 
来 帮助 用 户 优 化 集群 和 反复 验证 其 性 能 。 


11.1 MRE 
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master 没 有 处 理 任 何 过 重 的 负载 并 且 实 际 的 数据 服务 并 不 经 过 它 。 这 
些 参数 只 需要 被 添加 到 region 服 务 器 的 启动 参数 中 。 


用 户 可 能 会 问 什 么 要 通过 优化 垃圾 回收 来 使 HBase 有 效率 地 运 
行 。 其 主要 原因 是 JRE 在 稚 认 情况 下 会 按照 一 般 情 况 来 估计 用 户 的 程 
序 在 做 什么 、 它 们 怎么 创建 对 象 、 如 何 分 配 堆 去 处 理 数 据 等 。 这 些 假 
设 在 多 数 情况 下 都 是 正确 的 。 此 外 ，JRE 能 够 运用 局 发 式 的 算法 来 根 
据 运 行 的 进程 进行 调整 。 甚 至 当局 发 式 的 学 习 调 整 功 能 受 限于 具体 实 
现时 ，JRE 也 能 够 更 好 地 处 理 某 些 特殊 情况 。 


现在 的 底线 是 它 不 能 很 好 地 处 理 region 服 务 器 。 主 要 原因 是 当 
region 服 务 器 处 理 特定 的 负载 时 ， 特 别 是 写 入 量 过 大 的 负载 ， 繁 重 的 
负载 会 迫使 内 存 分 配 策略 无 法 安全 地 只 依赖 JRE 对 程序 行为 的 各 种 候 
BFP AB URE BEA oO ACNE RR aT 
地 殊 情况 。 


对 写 入 负载 过 大 的 情况 来 说 ，memstore 在 不 同时 期 创建 并 释放 着 
各 种 不 同 大 小 的 对 象 。 因 为 数据 是 被 存 储 在 内 存 绥 冲 区 内 的 ， 它 们 会 
被 保留 直到 超过 用 户 配置 的 最 小 刷 写 大 小 ， 用 户 可 以 在 配置 文件 中 使 
用 hbase.hregion.memstore.flush.size 来 设置 region 的 
memstore 刷 写 大 小 ， 此 外 在 定义 表 时 也 可 以 对 不 同 的 表单 独 指定 表 的 
这 个 属性 。 


一 旦 memstore 大 于 这 个 值 ， 数 据 就 会 被 刷 写 到 位 列 ， 并 创建 一 个 
新 的 存储 文件 。 因 为 写 入 磁盘 的 数据 是 由 客户 端 在 不 同时 间 写 入 的 ， 


那么 它们 占据 的 Java 堆 空间 很 可 能 是 不 连续 的 ， 所 以 Java 虚 拟 机 的 推 
内 存 会 出 现 孔 洞 。 


数据 会 根据 自身 在 内 存 中 停留 的 时 间 被 保存 在 Java 堆 中 分 代 结 构 
的 不 同位 置 被 快速 插入 旦 被 刷 写 到 磁盘 的 数据 ， 通 常会 被 分 配 到 被 
称 为 年 轻 代 (young generation) 或 新 生 代 (new generation) 的 堆 
中 。 这 种 空间 可 以 被 迅速 地 回收 ， 并 且 对 内 存 管理 没有 影响 。 

男 一 方面 ， 如 有 果 数 据 在 内 存 中 停留 的 时 间 过 长 ， 例 如 ， 疝 一 个 列 
族 中 插入 数据 的 速度 较 慢 时 ， 对 应 的 数据 就 很 可 能 被 提升 为 了 老生 代 

(old generation) 或 终生 代 (tenured generation) 。 人 年轻 代 和 老生 代 的 

不 同 点 在 于 空间 大 小 : 年 轻 代 占 用 的 空间 在 128 MB 到 512 MB 之 间 ， 
而 老生 代 几 乎 占用 了 所 有 可 以 占用 的 堆 空 间 ， 通 常 是 好 儿 GB 的 内 存 。 


一 一 上 用 户 可 以 通过 向 hbase-env.sh 配置 文件 中 添加 
HBASE_OPTS 或 者 HBASE_REGIONSERVER_OPT 变量 来 设 
置 垃 圾 回收 相关 选项 。 后 者 仅仅 影响 region 服 务 右 进程 ( 例 
如 ， 相 对 于 master) ， 并 且 也 是 推荐 的 修改 方式 。 


指定 新 生 代 的 空间 可 以 通过 以 下 两 种 方式 完成 : 


-XX:MaxNewSize=128m -XX:NewSize=128m 


另 一 种 更 简洁 的 方式 是 将 之 前 的 两 个 代码 合并 成 一 个 简便 的 选 
I: 


页 
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一 一 公使 用 128 MB 是 一 个 好 的 开端 ， 用 户 可 以 通过 对 
JVM 各 指标 的 进一步 观察 来 确认 年 轻 代 的 大 小 是 否 满足 需 
求 o 


注意 ， 默 认 值 对 于 多 数 region 服 务 器 面 对 的 负载 来 说 都 
太 小 ， 所 以 它 必 须 增 大 。 如 采 不 这 样 做 的 话 ， 用 户 可 能 会 发 
现 服务 右 CPU 的 使 用 量 会 急剧 上 升 ， 因 为 从 年 轻 代 中 收集 对 

会 消耗 大 量 的 CPU ° 


为 了 重复 使 用 由 于 刷 写 数据 到 磁 副 而 产生 (或 由 其 他 对 象 的 创建 
和 释放 产生 ) 的 堆 孔 洞 ， 新 老生 代 都 需要 由 JRE 来 维护 。 如 果 在 某 个 
时 间 内 ， 应 用 程序 需要 的 堆 大 小 不 适合 这 些 碎片 空间 ， 那 么 JRE 需 要 
压缩 堆 内 存 碎片 。 这 个 操作 包含 了 其 他 隐 式 操作 ， 例 如 ， 将 长 时 间 存 
在 的 对 象 从 年 轻 代 提升 并 转移 到 老生 代 。 如 果 这 个 操作 失败 ， 用 户 将 
会 在 垃圾 回收 日 志 中 看 到 提升 失败 的 信息 。 


| ‘i 
— 强烈 建议 在 JRE 日 志 中 输出 垃圾 回收 的 详细 信息 。 
用 户 可 以 通过 添加 以 下 JRE 选 项 来 达到 目的 : 


-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps \ 


-Xloggc : $HBASE_HOME/1logs/gc-$(hostname) -hbase. log" 
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顿 的 "concurrent mode failure" 或 者 "promotion 
failed" 信息 。 


请 注意 ， 该 日 志文 件 不 会 像 其 他 日 志 一 样 按 日 期 定时 深 
动 存放 到 不 同文 件 中 ， 用 户 需 要 自己 手动 管理 (例如 ， 使 用 
基于 cron 的 每 日 深 动 转 存 任务 ) 。 


以 上 讨论 的 重 写 并 整理 堆 中 不 同 代 的 过 程 被 称 之 为 垃圾 回收 ， 并 
ER T DURE FRORES MOREAREN, i 


-XX:+UseParNewGC and -XX:+UseConcMarkSweepGC 


第 一 个 选项 是 设置 年 轻 代 使 用 Parallel New Collector 3x [BIC 
HS: 这 将 停止 运行 Java 进 程 而 去 清空 年 轻 代 堆 。 与 老生 代 相 比 ， 新 生 
代 很 小 ， 所 以 这 个 过 程 花费 时 间 很 得， 通常 只 需要 几 百 坚 秒 时 间 。 


以 上 回收 费 略 对 于 较 小 的 年 轻 代 来 说 是 可 以 接受 的 ， 但 是 并 不 适 
合 老 生 代 :在 最 差 的 情况 下 ， 以 上 回收 策略 会 造成 数秒 钟 甚至 几 分 钟 
的 进程 停顿 。 一 旦 停顿 时 间 达 到 了 ZooKeeper 会 话 超时 限制 ， 这 个 服务 
屁 将 被 master 认 为 已 经 朋 江 并 且 随 后 会 被 抛弃 。 一 旦 region 服 务 器 从 垃 
Be an 它 会 获知 目 己 已 经 被 抛弃 ， 然 后 它 会 目 行 天 
z] ° 


这 种 情况 可 以 通过 使 用 并 行 标 记 回 收 器 (Concurrent Mark-Sweep 
Collector, CMS) 来 缓解 ， 这 种 回收 策略 通过 上 述 例子 中 后 面 的 选项 
局 用 。 不 同 之 处 在 于 其 工作 时 试图 在 不 停止 运行 Java 进 程 的 情况 下 尽 
可 能 异步 并 行 地 完成 工作 。 这 种 策略 将 增加 CPU 的 负载 ， 但 是 却 可 以 
避免 重 写 老 生 代 堆 碎 片 时 的 停顿 一 一 除非 发 生 提 升 失 败 ， 这 种 错误 会 
迫使 垃圾 回收 暂停 运行 JAVA 进程 并 进行 内 存 整理 。 


CMS 有 一 个 额外 的 开关 选项 ， 这 个 选项 控制 着 将 在 什么 时 候 开 始 
并 发 标记 和 清扫 检查 。 这 个 值 可 以 通过 以 下 选项 来 设置 : 


-XX:CMSInitiatingOccupancyFraction=70 


这 个 值 是 一 个 百分比 ， 并 指定 后 全 线程 何 时 局 用 ， 用 户 需 要 设 定 
这 个 值 以 防止 另 一 种 情况 发 生 ， 即 并 发 模式 失败 。 当 后 台 进 程 为 回收 
空间 而 标记 和 清理 堆 内 存 时 ， 可 能 会 发 生 堆 空间 不 足 CIT Tce 
时 ) 。 在 这 种 情况 下 ，JRE 必 须 暂 停 运 行 Java 进 程 并 且 通 过 释放 对 和 象 来 
强制 释放 空间 ， 或 者 将 停留 时 间 较 长 的 对 象 转移 到 老生 代 。 


将 初始 占用 百分比 设置 为 70% 意 味 着 其 比 region 服 务 器 设置 的 60% 
的 堆 占 用 率 要 大 一 点 ，60% 的 堆 占 用 率 由 默认 的 20% 块 缓存 和 40% 的 
memstore 组 成 。 这 样 的 配置 允许 在 堆 空 间 被 占用 完 之 前 就 开始 并 行 垃 
圾 回收 过 程 ， 同 时 这 样 的 配置 也 不 会 使 回收 工作 开始 得 太 早 而 使 回收 
过 程 频繁 运行 。 


Š 把 上 面 的 设置 放 在 一 起 ， 用 户 可 以 使 用 下 列 内 容 作 为 最 开始 的 配 


export HBASE_REGIONSERVER_OPTS="-Xmx8g -Xms8g -Xmn128m - 
XX:+UseParNewGC \ 
-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 - 


verbose:gc \ 
-XX:+PrintGCDetails -XX:+PrintGCTimeStamps \ 
-Xloggc : $HBASE_HOME/1logs/gc-$(hostname) -hbase.log" 
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必 注意 ， 在 真实 的 硬件 环境 下 ， 不 推荐 使 用 - 
XX:+CMSIncrementalMode 参数 。 


这 些 设置 结合 了 编写 本 书 时 最 好 的 实践 经 验 。 如 果 用 户 使 用 的 是 
比 Java 6 更 新 的 版 本 ， 应 当 评 佑 一 下 者 垃 圾 回收 机 制 的 实现 ， 并 选择 一 
个 合适 的 配置 。 


调整 年 轻 代 空间 的 大 小 是 十 分 重要 的 ， 这 样 生存 期 较 长 的 对 象 不 
会 过 快 地 引起 老生 代 产 生 内 存 碎片 。 从 男 一 方面 来 讲 ， 年 轻 代 空间 也 
不 能 太 大 ， 否 则 回收 时 会 引起 太 长 的 停顿 。 虽 然 这 些 集 顿 不 会 使 
region 服 务 器 超时 ， 但 集 止 几 百 毫秒 会 影响 服务 右 啊 应 延 时 。 


同样 ， 当 优化 块 缓存 和 memstore 大 小 时 ， 用 户 应 确保 将 占用 百 分 
比 的 初始 值 设 置 得 稍 大 一 些 。 同 时 ， 用 户 必须 合理 地 指定 这 两 个 值 ， 
它们 的 和 肯定 不 能 大 于 100%。 用户 还 需要 考虑 管理 一 般 Java 类 的 开销 
Sea 两 个 默认 值 和 为 60% 是 比较 合理 的 。 更 多 的 信息 请 
参考 11.8 节 © 


11.2 ”本 地 memstore 分 配 缓冲 区 


HBase 的 0.90.x 版 本 引入 了 一 种 高 级 机 制 来 绥 解 region 服 务 絮 内 存 
碎片 问题 ， 这 个 问题 主要 是 memstore 的 扰动 造成 的 〈 不 断 创 建 和 释放 
内 存 空间 ) : 本 地 memstore 分 配 缓冲 区 (Memstore-Local Allocation 
Buffers, MSLAB) œ 


前 面 的 章节 解释 了 生存 期 长 的 KeyValue 实例 一 旦 刷 写 到 磁盘 ， 
就 会 在 老生 代 的 堆 上 产生 孔洞 。 申 请 新 空间 时 ， 由 于 碎片 过 多 导致 没 
有 足够 大 的 连续 空间 分 配 ，JRE 会 退回 到 使 用 应 用 程序 停止 ”(stop-the- 
sone HRE, IRR Se Sp BS E Sy SEZ H Fs Saal aS BT A 
WE 。 


减少 这 些 压缩 回收 的 关键 是 减少 碎片 ，MSLAB 就 是 为 此 设计 
的 。 其 关键 在 于 只 允许 从 堆 中 分 配 相同 大 小 的 对 象 。 一 旦 这 些 对 象 分 
配 并 且 最 终 被 回收 ， 它 们 将 在 堆 中 留 下 固定 大 小 的 孔洞 。 之 后 调用 相 
同 大 小 的 新 对 象 将 会 重新 使 用 这 些 孔洞 : 这 样 就 不 会 产生 提升 错误 
(promotion error) ， 因 此 就 不 需要 应 用 程序 停止 压缩 回收 了 。 


MSLAB 是 许多 大 小 固定 的 缓冲 区 ， 用 来 存储 大 小 不 同 的 
KeyValue 实例 。 当 一 个 缓冲 区 不 能 放下 一 个 新 加 入 的 KeyValue 
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小 的 缓冲 区 。 


这 个 特性 默认 是 在 0.92 版 中 被 局 用 的 ， 而 在 0.90 版 中 没有 被 启用 。 
用 户 也 可 以 通过 hbase.hregion.,memstore.mslab.enabled 配 
置 属性 来 覆盖 这 个 属性 。 用 户 在 使 用 新 特性 时 需要 充分 测试 以 避免 发 
生 问题 ， 使 用 MSLAB 会 推迟 垃圾 回收 停顿 的 发 生 ， 这 样 会 有 很 多 好 
处 ， 不 过 用 户 仍然 需要 处 理 长 时 间 的 垃圾 回收 停顿 。 如 果 用 户 仍 然 在 
经 历 这 些 停 顿 ， 那 么 用 户 可 以 考虑 以 几 天 或 几 周 的 频率 在 集 顿 发 生前 


重 局 服务 。 
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一 因为 这 个 新 特性 还 没有 在 生产 环境 中 长 时 间 运 行 
以 测试 其 功能 ， 建 议 使 用 时 仔细 观察 服务 器 的 行为 。 


每 一 个 被 分 配 的 、 固 定 大 小 的 缓冲 区 的 大 小 都 是 由 
hbase.hregion.memstore.mslab.chunksize 属性 控制 的 。 默 
认 值 是 MB， 并 且 这 是 一 个 合理 的 开始 值 。 根 据 KeyValue 实例 的 大 
小 ， 用 户 可 能 需要 调整 这 个 值 : 如 采用 户 需 要 储存 更 大 的 单元 格 ， 例 
KB， 那 么 就 需要 增加 MSLAB 的 大 小 以 容纳 更 多 的 
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同样 也 有 一 个 存储 缓冲 区 的 上 边界 。 这 个 是 通过 
hbase. hregion.memstore.mslab.max.allocation 属性 来 设 
置 的 ， 并 且 其 默认 值 是 256 KB。 任 何 大 于 这 个 值 的 单元 格 将 会 直接 在 
Java 推 中 申请 空间 。 如 果 用 户 存 储 了 许多 大 于 上 限 的 KeyValue 实 
例 ， 用 户 将 会 更 早 遇 到 与 堆 内 存 碎 片 相 关 的 停顿 。 


使 用 MSLAB 是 有 代价 的 :它们 将 更 加 浪费 堆 空间 ， 因 为 用 户 不 太 
可 能 把 缓冲 区 都 用 到 最 后 一 个 字 节 ， 和 列 余 的 没有 使 用 的 空间 则 将 被 浪 
2 a 
一 个 平衡 。 


最 后 ， 因 为 使 用 绥 冲 区 需要 额外 的 内 存 复制 工作 ， 所 以 使 用 缓 促 
区 比 直接 使 用 KeyValue 实例 要 稍 慢 一 点 。 用 户 需要 衡量 这 些 工 作 负 
载 是 否 会 产生 负面 影响 。 


11.3 压缩 


HBase 文 持 大 量 的 压缩 算法 ， 并 且 可 以 文 持 列 族 级 别 上 的 数据 压 
缩 。 除 非 有 特殊 原因 ， 例 如 ， 使 用 已 经 压缩 过 的 内 容 如 JPEG 图 像 ， 否 
则 我 们 还 古 推 荐 开局 压缩 。 对 于 其 他 的 使 用 场景 来 说 ， 上 压缩 通常 都 会 
带 来 较 好 的 性 能 ， 因 为 CPU 压 缩 和 解压 消耗 的 时 间 比 从 磁 副 中 读 取 和 
写 入 更 多 数据 消耗 的 时 间 更 短 。 


11.3.1 可 用 的 编 解 码 器 
用 户 可 以 从 固定 支持 的 压缩 算法 列表 中 选取 一 个 算法 。 它 们 有 不 


辣 的 压缩 质量 和 和 需求， 选择 时 通 利 需要 考虑 它们 的 压缩 率 、CPU 消 耗 
和 其 他 安装 需求 。 
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一 全 目前 HBase 并 没有 提供 嵌入 式 的 压缩 算法 。HBase 
提供 的 要 么 是 Java 本 身 的 一 部 分 ， 要 么 是 操作 系统 级 别 的 第 
三 方 类 库 。 它 们 需要 的 支持 库 需 要 用 户 提前 编译 构建 ， 不 过 
有 些 算法 已 经 集成 在 HBase 中 。 


在 比较 压缩 算法 之 前 ， 用 户 可 以 参照 表 11-1 或 者 查看 Google 在 2005 年 
发 布 的 压缩 算法 比较 信息 。® 虽然 该 数据 的 时 间 比 较 久 远 ， 但 是 它们 
仍然 能 够 展现 每 种 压缩 算法 的 特点 。 


表 11-1 压缩 算法 比较 


GZIP 13.4% 21 MB/s 118 MB/s 


Zippy/Snappy 22.2% 172 MB/s 409 MB/s 


注意 ， 有 一 些 算法 拥有 更 好 的 压缩 率 ， 而 另 一 些 算 法 拥有 更 快 的 


编码 速度 和 非常 快 的 解码 速度 。 用 户 最 好 根据 实际 情况 选择 一 个 最 适 
合 的 压缩 算法 。 
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在 2011 年 Snappy 可 用 之 前 ， 虽 然 LZO 没 有 最 好 的 
压缩 率 ， 但 它 仍 是 被 推荐 的 算法 。GZIP 在 压缩 率 上 有 优 
势 ， 但 它 也 是 CPU 密集 型 算法 ， 其 微弱 的 节省 存储 空间 上 的 
优势 通常 是 无 法 弥补 速度 较 慢 和 CPU 使 用 率 过 高 的 劣势 ， 所 
以 不 推荐 使 用 GZIP 。 


Snappy 拥 有 和 LZO 一 样 的 质量 ， 并 有 兼容 的 使 用 许可 ， 
而 且 在 第 一 次 测试 时 束 表 明 在 使 用 Hadoop 和 HBase 时 ， 使 用 
Snappy 比 使 用 LZO 性 能 稍 好 。 因 此 ， 根 据 以 上 描述 ， 用 户 应 
该 更 多 考虑 使 用 Snappy 而 非 LZO 。 


1. Snappy 


用 户 可 以 通过 Google 以 BSD 许 可 协议 发 布 的 Snappy 来 使 用 
BigTable 所 用 的 压缩 算法 〈 称 为 Zippy) 。 与 其 他 压缩 算法 相 比 ， 它 在 
提高 压缩 速度 以 及 达到 合理 压缩 率 两 方面 均 进行 了 优化 。 


Snappy 的 代码 是 用 C++ 编写 的 ，HBase 的 0.92 版 本 包括 了 所 需 使 用 
的 JNI 库 。 用 户 首 先 需 要 通过 使 用 包 管 理 软件 ， 如 apt、rpm 和 yum， 或 
者 直接 从 源 代 码 构 建 它 们 ， 然 后 安 逆 它们 的 本 地 可 执行 二 进 制 文件 ， 
这 样 它 们 就 能 够 被 JNI 库 发 现 并 调用 了 。 2 


当 用 户 设 置 好 Snappy 的 支持 后 ， 用 户 必 须 安装 Snappy 本 地 二 进 制 
库 到 所 有 的 region 服 务 絮 上 ， 只 有 这 样 它 们 才能 被 库 正常 使 用 。 


2. LZO 


Lempel-Ziv-Oberhumer (简称 LZO) 是 一 个 无 损 压 缩 算法 ， 其 专 
注 于 解压 速度 ， 并 且 使 用 ANSI C 编 写 。 和 Snappy 相 似 ， 它 也 需要 JNI 
库 才 能 使 HBase 能 够 调用 它 。 


不 幸 的 是 ， 由 于 LZO 的 许可 问题 ，HBase 不 能 将 所 需 的 JNI 库 集成 
到 安装 包 : HBase 使 用 的 是 Apache 许 可 证 ， 而 LZO 使 用 的 是 不 兼容 的 
GNU General Public (GPL) 许可 。 这 就 意味 着 ，LZO 安 装 需 要 在 
HBase 安 装 后 单独 进行 安装 号 。 


3. GZIP 


一 般 来 说 ，GZIP 压 缩 算法 的 压缩 比 会 比 Snappy 或 者 LZO 高 ， 但 是 
速度 较 慢 。 虽 然 这 看 起 来 像 缺 点 ， 但 它 能 减少 存储 空间 的 开销 。 


这 个 性 能 问题 可 以 通过 使 用 本 地 操作 系统 GZIP 库 的 方式 得 到 组 
解 。HBase 使 用 的 压缩 库 (由 Hadoop 提 供 ) 会 自动 检查 是 否 有 本 地 库 
可 用 。 如 果 没 有 本 地 库 可 用 ， 用 户 将 会 在 日 志文 件 中 看 见 : "Got 
brand-new compressor "。 它 们 表明 载 入 本 地 版 本 失败 ， 并 返回 
默认 的 Java 实 现代 码 来 替代 。 压 缩 仍 然 会 运行 但 是 速度 会 稍微 变 慢 。 


另外 的 劣势 是 GZIP 需 要 消耗 大 量 的 CPU 资源 。 这 将 会 加 重 服务 器 
的 负载 ， 同 时 这 种 负载 应 当 被 监控 以 免 出 现 问题 。 


11.3.2 ”验证 安装 


一 旦 安装 了 一 种 HBase 支 持 的 压缩 算法 ， 强 烈 建议 用 户 检 查 一 下 
安 逆 是 否 成 功 。 在 HBase 中 有 好 几 种 机 制 能 够 验证 压缩 算法 是 否 正 
名 


1. 压缩 测试 工具 


HBase 包 含 一 个 能 够 测试 压缩 设置 是 否 正 常 的 工具 。 用 户 可 以 通 
过 输入 ./bin/hbase 
org.apache.hadoop.hbase.util.CompressionTest 来 使 用 
它 。 这 样 会 显示 如 何 使 用 工具 的 说 明 : 


$ ./bin/hbase org.apache.hadoop.hbase.util.CompressionTest 


Usage: CompressionTest < path> none|gz|1zo| snappy 


For example: 


hbase class org.apache.hadoop.hbase.util.CompressionTest 
file:///tmp/ testfile gz 


HP mRNA, AAS Pe TE A E N 
试 这 个 文件 。 例 如 ， 用 户 想 在 HDFS 中 使 用 测试 文件 检查 GZIP 是 否 安 
eA] LIST: 


$./bin/hbase org.apache.hadoop.hbase.util.CompressionTest \ 


/user/larsgeorge/test.gz gz 


11/07/01 20:27:43 WARN util.NativeCodeLoader: Unable to load 
native-hadoop \ 


library for your platform... using builtin-Java classes where 
applicable 
11/07/01 20:27:43 INFO compress.CodecPool: Got brand-new 
compressor 
11/07/01 20:27:43 INFO compress.CodecPool: Got brand-new 
compressor 
SUCCESS 


工具 报告 成 功 之 后 ， 用 户 可 以 在 定义 列 族 时 使 用 这 种 压缩 算法 。 
注意 运行 这 条 命令 时 ， 如 果 打 印 "Got brand-new compressor " 信 
晨 ， 则 意味 着 本 地 GZIP 库 没有 被 服务 句 找 到 ， 但 是 它 可 以 使 用 Java 目 
带 的 GZIP 相 关 代码 进行 解压 缩 。 


对 一 种 没有 安装 好 的 压缩 类 型 尝试 使 用 同样 的 操作 将 会 得 到 一 个 
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$./bin/hbase org.apache.hadoop.hbase.util.CompressionTest \ 


file:///tmp/test.1zo lzo 


Exception in thread "main" Java.lang.RuntimeException: \ 
Java. lang.ClassNotFoundException: 
com.hadoop.compression.1zo.LzoCodec 
at 
org.apache.hadoop.hbase.io.hfile.Compression$Algorithm$1.getCodec ) 
at 
org.apache.hadoop.hbase.io.hfile.Compression$Algorithm. getCompress 
or 


QAR HE MICS OL, ‘a SER EAS EES o ERRINA H, 
压缩 库 后 ， 用 户 可 能 还 需要 重新 启动 region 服 务 器 。 


2. 启动 检查 


即使 压缩 测试 工具 报告 成 功 了 ， 并 且 确 认 了 压缩 库 已 正确 安 闭 ， 
用 户 仍 旧 可 能 在 接 下 来 的 使 用 中 遇 到 问题 : 由 于 JNI 需 要 首先 安 闭 好 本 
地 库 ， 如 采 缺 失 这 一 步 ， 将 会 在 添加 痢 服 务 硕 时 出 现 问题 ， 导 致 痢 的 
服务 器 使 用 本 地 库 打 开 含 有 压缩 列 族 的 region 失 败 (参见 12.5.3 市 中 “ 基 
本 安装 检查 表 ” 的 内 容 ) 。 


这 个 问题 可 以 通过 在 (默认 未 设 定 ) 
hbase.regionserver . codecs 属性 中 设 定 所 有 需要 的 JNI 库 来 绥 
解 。 如 有 果 其 中 一 个 本 地 库 没 有 被 找到 ， 则 整个 region 服 务 器 将 无 法 启 
动 。 这 样 系统 会 在 启动 过 程 中 产生 异常 ， 以 帮助 用 户 快速 发 现 这 个 问 
题 ， 而 不 用 面 对 启 动 之 后 的 各 种 问题 。 


例如 ， 通 过 以 下 配置 ， 在 region 服 务 器 启动 的 时 候 将 会 检查 
Snappy 和 LZO 压 缩 库 是 否 已 经 正确 安装 : 


< property> 
< name>hbase.regionserver.codecs< /name> 


< value>snappy, 1zo< /value> 
< /property> 


如 果 在 一 些 情况 下 载 入 JNI 库 失败 ， 服 务 器 将 会 终止 启动 并 出 现 一 
个 /JO 异 常 信息 "Compression codec <codec-name> not 
supported, aborting RS construction"。 用 户 可 以 修复 这 些 
问题 ， 并 尝试 再 次 启动 region 服 务 絮 守护 进程 。 


用 户 可 以 在 每 一 个 HBase 支 持 的 压缩 算法 上 完成 这 个 测试 ， 并 且 
eee en 到 所 有 的 region 服 务 器 上 并 重启 它 
| o 
11.3.3 ”启用 压缩 

启用 压缩 需要 安装 相应 的 JNI 和 本 地 压缩 库 (除非 用 户 只 想 使 用 基 
于 Java 代 码 的 GZIP 压 缩 ) ， 就 像 前 面 描述 的 ， 在 定义 列 族 时 ， 用 户 可 
以 指定 一 个 压缩 算法 。 

用 户 在 创建 表 的 时 候 可 以 进行 这 些 操作 ， 可 用 的 值 在 5.1.3 节 中 有 


介绍 。 


hbase(main):001:0> create 'testtable',{ NAME => 
'colfam1',COMPRESSION => 'GZ' } 


© row(s) in 1.1920 seconds 


hbase(main):012:0> describe 'testtable' 


DESCRIPTION ENABLED 
{NAME => 'testtable',FAMILIES => [{NAME => 'colfam1', true 
BLOOMFILTER => 'NONE',REPLICATION_SCOPE => '@', VERSIONS 

=> '3',COMPRESSION => 'GZ', TTL => '2147483647',BLOCKSIZE 


=> '65536',IN_MEMORY => 'false',BLOCKCACHE => 'true'}]} 
1 row(s) in 0.0400 seconds 


describe 命令 用 于 读 取 用 户 新 创建 表 的 模式 (schema) ° AP a 
以 看 到 ， 压 缩 方式 被 设置 为 GZIP (要 求 使 用 GZ 人 简称) 。 另 外 一 种 方 
式 是 通过 alter 命令 对 现 有 表 进 行 启用 、 更 改 或 禁用 压缩 算法 。 


hbase(main):013:0>create 'testtable2', 'colfam1' 


© row(s) in 1.1920 seconds 


hbase(main):014:0>disable 'testtable2' 


© row(s) in 2.0650 seconds 


hbase(main):016:0>alter 'testtable2',{ NAME => 
"colfami1',COMPRESSION => 'GZ' } 


© row(s) in 0.2190 seconds 


hbase(main):017:0>enable 'testtable2' 


© row(s) in 2.0410 seconds 


注意 ， 用 户 需 要 移 栖 用 表 。 对 于 修改 表 操 作 来 说 ， 必 须 首先 茜 
表 。 最 后 ，enable 命令 会 使 表 重 新 局 用 上 线 。 


将 压缩 格式 更 改 为 NONE 会 使 给 定 的 列 族 禁 用 压缩 。 


操作 延迟 


注意 ， 即 使 用 户 进 行 了 局 用、 禁用 或 改变 压缩 算法 的 
操作 ， 这 些 操作 并 不 会 立竿见影 。 所 有 的 存储 文件 实际 都 
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改 后 的 region 会 在 刷 写 存 储 文件 时 使 用 新 的 压缩 格式 。 


如 采用 户 想 强制 将 所 有 现成 的 文件 都 使 用 新 设置 的 格 
式 重 写 ， 那 么 可 以 在 Shell 中 使 用 
major_compact‘<tablename>’ : 命令 让 major 合 并 进程 在 后 
BIST MASH SAW ICE, FEAST ° id 
住 ， 这 可 能 会 使 资源 十 分 紧张 ， 请 用 户 在 确定 可 用 的 资源 
充足 时 再 强制 执行 。 同 时 也 要 注意 ，major 合并 将 会 运行 
一 段 时 间 ， 这 个 是 由 存储 文件 的 数量 和 大 小 来 决定 的 ， 请 
耐心 等 待 。 


11.4 ”优化 拆 分 和 合并 


HBase 内 置 的 处 理 拆 分 和 合并 的 机 制 一 般 是 合理 的 ， 并 且 它 们 按 
照 预期 处 理 任务 ， 但 在 有 些 情 况 下 ， 还 是 需要 按照 应 用 需求 对 这 部 分 
功能 进行 优化 以 获得 额外 的 性 能 改善 。 


11.4.1 ”管理 拆 分 


通常 HBase 古 目 动 处 理 region 拆 分 的 :一旦 它们 达到 了 既定 的 冰 
值 ，region 将 被 拆 分 成 两 个 ， 之 后 它们 可 以 接收 新 的 数据 并 继续 增 
长 。 这 个 默认 行为 能 够 满足 大 多 数 用 例 的 需求 。 


其 中 一 种 可 能 出 现 问题 的 情况 被 称 之 为 " 拆 分 /合并 风 骏 ”: 当 用 户 
的 region 大 小 以 恒定 的 速度 保持 增长 时 ，region 拆 分 会 在 同一 时 间 发 
生 ， 因 为 同时 需要 压缩 region 中 的 存储 文件 ， 这 个 过 程 会 重 写 拆 分 之 
后 的 region， 这 将 会 引起 磁盘 IO 上 升 。 


与 其 依赖 HBase 自 动 管理 拆 分 ， 用 户 还 不 如 关闭 这 个 行为 然后 手 
动 调用 split 和 major_compact 命令 。 用 户 可 以 通过 设置 这 个 集群 的 
hbase.hregion.max.filesize 值 或 者 在 列 族 级 别 上 把 表 模 式 中 


对 应 参数 设置 成 非常 大 的 值 来 完成 。 为 防止 手动 拆 分 无 法 运行 ， 最 好 
不 要 将 其 设置 为 Long .MAX_VALUE 。 用 户 最 好 将 这 个 值 设置 为 一 个 
合理 的 上 限 ， 例 如 ，100 GB (如 果 触 发 的 话 将 会 导致 一 个 小 时 的 major 


全 


手动 运行 命令 来 拆 分 和 压缩 region 的 好 处 是 可 以 对 它们 进行 时 间 
控制 。 在 不 同 region 上 交错 地 运行 ， 这 样 可 以 尽 可 能 分 散 IO 负载 ， 并 
且 避 人 免 拆 分 /合并 风暴 。 用 户 可 以 实现 一 个 可 以 ， 调 用 split() 和 
majorCompact() 方法 的 客户 端 ， 也 可 以 使 用 Shell 交 互 地 调用 相关 
命令 ， 或 者 使 用 cron 定时 地 运行 它们 。 用 户 可 以 参见 
RegionSplitter 类 (0.90.2 版 本 添加 进来 的 ) 的 另 一 种 拆 分 region 
的 方法 : 其 拥有 滚动 拆 分 (rolling split) 的 特性 ， 用 户 可 以 使 用 该 功 
We (参见 -r 和 -o 命令 行 选 
Til) 。 


另外 一 个 手动 管理 拆 分 的 优势 是 用 户 能 够 更 好 地 在 任意 时 间 控 制 
哪些 region 可 用 。 这 对 于 用 户 需 要 解决 底层 bug 这 种 少数 情况 来 说 是 十 
分 有 用 的 ， 例 如 ， 排 查 某 一 个 region 的 问题 。 在 使 用 自动 拆 分 时 ， 用 
户 可 能 发 现 要 检查 的 region 已 经 被 两 个 拆 分 后 的 子 region 替 代 了 “。 这 些 
子 region 有 新 的 名 字 ， 并 且 客 户 端 需要 大 量 的 时 间 重 新 定位 region， 这 
使 得 查询 所 需要 的 信息 变 得 更 加 困难 。 


11.4.2 region 热 点 


参考 10.2.3 节 ® 的 内 容 ， 用 户 将 会 发 现 自己 应 用 程序 的 模式 是 否 
会 让 特定 的 region 成 为 热点 。 


如 果 存 在 这 种 情况 ， 请 参照 第 9 章 中 讨论 的 内 容 ， 尤 其 是 9.17 的 
AA: 用 户 需 采用 盐 析 主 键 (salt key) 或 者 使 用 随机 的 行 键 来 把 负载 
均衡 到 所 有 的 服务 器 。 


唯一 可 以 缓解 这 种 现象 的 途径 就 是 手动 地 将 热点 region 按 特定 的 
边界 拆 分 出 一 个 或 多 个 新 region， 然 后 将 子 region 负 载 分 布 到 多 个 
region 服 务 器 上 “。 用 户 可 以 为 region 指 定 一 个 拆 分 行 键 ， 即 region 被 拆 
分 为 两 部 分 的 位 置 。 用 户 可 以 指定 region 中 任意 的 行 键 ， 这 样 用 户 也 
可 以 生成 大 小 完全 不 同 的 两 个 region。 


这 个 只 能 
的 行 键 时， 过 
E o 


在 处 理 非 完全 连续 的 行 键 范围 时 起 作用 ， 因 为 采用 连续 
一 段 时 间 插 入 的 数据 总 会 集中 到 最 近 生 成 的 儿 个 region 


表 热 点 


对 于 拥有 很 多 region 的 表 来 说 ， 大 部 分 region 分 布 并 
不 均匀 ， 即 大 多 数 region 位 于 同一 个 region 服 务 器 上 。 
这 就 意味 着 ， 即 使 用 随机 的 key 来 写 入 数据 ， 某 一 台 region 
服务 器 的 负载 仍 大 于 其 他 的 region 服 务 器 。 用 户 可 以 从 
HBase Shell 或 者 使 用 HBaseAdmin 类 中 的 API， 并 通过 
5.2.4 广 中 介绍 的 move( ) 函数 显 式 地 把 region 从 一 个 region 
服务 器 移动 到 另 一 个 region 服 务 器 。 另 外 一 个 方法 就 是 使 
用 unassign( ) 方法 或 者 Shell 命 令 简 单 地 从 当前 服务 器 
移 除 受 影响 的 表 的 region，master 会 立即 将 其 部 署 到 其 他 
region 服 务 右 上 。 


11.4.3” 预 拆 分 region 


管理 拆 分 能 够 在 集群 负载 增加 时 有 效 地 进行 负载 控制 。 但 是 ， 用 
户 仍 然 会 面临 的 一 个 问题 是 ， 在 用 户 初始 创建 一 张 新 表 之 后 ， 用 户 需 
要 频 党 地 拆 分 region， 因 为 建立 的 新 表 通 常 只 有 一 个 region， 不 推荐 让 
单个 region 增 长 到 太 大 。 因 此 ， 在 表 创 建 时 ， 最 好 就 有 较 大 数量 的 
。 用 户 可 以 在 创建 表 时 指定 需要 的 region 数 目 来 达到 预 拆 分 的 目 


管理 接口 中 的 createTable( ) 方法 和 Shell 中 的 create 命令 都 可 
以 接受 以 列表 形式 提供 的 拆 分 行 键 作为 参数 ， 该 参数 在 创建 表 的 时 候 
会 被 用 来 预 拆 分 region。HBase 提 供 了 一 个 能 帮助 用 户 创建 预 拆 分 表 的 
工具 类 RegionSplitter 。 不 含 参数 时 它 将 会 显示 使 用 说 明 信 息 : 


$./bin/hbase org.apache.hadoop.hbase.util.RegionSplitter 


usage: RegionSplitter < TABLE> 


-C < region count> Create a new table with a pre-split 
number of 
regions 
-D < property=value> Override HBase Configuration Settings 
-f < family:family:... Column Families to create with new 
table. 
Required with -c 
-h Print this usage help 
-0 < count> Max outstanding splits that have 
unfinished 
major compactions 
Perform a rolling split of an existing 


Skip verification steps to complete 
quickly.STRONGLY DISCOURAGED for 
production 
systems. 


默认 采用 MD5StringSplit 类 将 行 键 拆 分 到 不 同 的 段 中 。 用 户 
能 够 通过 实现 提供 的 splitAlgorithm 接口 来 定义 自己 的 算法 ， 并 
且 通 过 使 用 -D split.algorithm=<your-algorithm-class> 
参数 将 它 融 入 到 工具 之 中 。 以 下 例子 使 用 了 提供 的 算法 并 创建 了 一 张 
预 拆 分 的 表 : 


$./bin/hbase org.apache.hadoop.hbase.util.RegionSplitter \ 


-c 10 testtable -f colfam1 


在 master 的 Web 界 面 中 ， 用 户 能 够 通过 点 击 刚 刚 创 建 的 表 名 来 查看 
生成 的 region ° 


testtable, , 1309766006467 .c0937d09f1da31F2a6c2950537a61093. 


testtable, Occccccc, 1309766006467. 


testtable, 19999998, 1309766006467 


testtable, 26666664, 1309766006467. 
testtable, 33333330, 1309766006467. 


testtable, 3fffFFFC, 1309766006467. 
testtable, 4cccccc8, 1309766006467. 
testtable, 59999994, 1309766006467. 
testtable, 66666660, 1309766006467. 


testtable, 7333332c, 1309766006468 


83a0a6a949a6150c5680F39695450d8a. 


. leba79c27eb9d5c2F89c3571F0d87a92. 


7882cd50eb22652849491c08a6180258. 
cef2853e36bd250c1b9324bac03e4bc9. 
00365940761359feel4d41db6a73ffc5. 
F0c5045c304c2f f5338be27e81ae698e. 
2d854fF337aa6c09232409F Obaild4964b. 
biec9df9Fd90d91F54cb1i8da5edc2581. 


.42€179b78663b64401079a8601d9bd06. 


或 者 使 用 Shell 的 create 命 令 : 


hbase(main):001:0>create 'testtable', 'colfam1',\ 


{ SPLITS => ['row-100', 'row-200', 'row-300', 'row-400'] } 


© row(s)in 1.1670 seconds 


这 将 生成 以 下 的 region: 


testtable, , 1309768272330 .37377c4ab0a944a326ba8b6596a29396. 
testtable, row-100, 1309768272331 .e6092cc777f58a08c61bf081aba14916. 
testtable, row- 200, 1309768272331 .63c9630a79b37ebce7b58cde0235dfe5. 


testtable, row-300, 1309768272331. eead6ad2f F3303F Fe6a3126e0df3fFf7a. 
testtable, row- 400, 1309768272331 .2bee7417fa67e4ac8c7210ce7325708e. 
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10 个 region 来 进行 预 拆 分 ， 


随 厦 时 间 的 推移 观察 数据 的 增长 情况 。 移 


设置 较 少 的 region 数 目 再 稍 后 滚动 拆 分 它们 是 一 种 更 好 的 方法 ， 因 为 


过 多 的 region 通 常会 影响 集群 性 能 。 


男 一 种 方法 是 ， 用 户 可 以 基于 region 中 最 大 的 存储 文件 大 小 来 决 
定 预 拆 分 region 的 数量 ， 随 着 数据 的 增加 ， 该 大 小 会 随 之 一 起 增加 。 


Bll El Arte 2I] Acompaction zk ° 
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如 果 用 户 将 region 预 拆 分 的 太 小 ， 可 以 通过 增加 
hbase.hregion.majorcompaction 的 值 来 加 大 major 合 并 的 间 
阳 。 如 果 用 户 的 数据 规模 增加 过 大 ， 用 户 可 以 使 用 RegionSplitter 
工具 在 所 有 region 上 通过 网 络 1/O 执 行 安 全 的 深 动 拆 分 。 


使 用 手动 拆 分 和 预 拆 分 是 高 级 概念 ， 需 要 用 户 有 谨慎 的 计划 并 仔 

细 监 控 操 作 时 HBase 系 统 的 运行 情况 。 另 一 方面 ， 这 能 够 避免 全 局 一 

eee 并 可 以 通过 手动 拆 分 摆脱 region 热 点 
S È ° 


11.5 ”负载 均衡 


master 有 一 个 内 置 的 叫做 均衡 器 的 特性 。 在 默认 的 情况 下 ， 均 衡 
器 每 五 分 钟 运行 一 次 ， 这 是 通过 hbase .balancer .period 属性 设 
置 的 。 一 旦 均衡 大 启动， 它 将 会 竹 试 均匀 分 配 region 到 所 有 region 服 务 
器 。 启 动 均衡 器 时 ， 均 衡器 首先 会 确定 一 个 region 分 配 计 划 ， 该 计划 
用 于 搞 述 region 如 何 移动 。 然 后 通过 迭代 调用 管理 API 中 的 
unassign( ) 方法 开始 移动 region。 


均衡 器 有 一 个 可 以 限制 自身 运行 时 间 的 上 限 ， 用 户 可 以 通过 
hbase .balancer .max.balancing 属性 来 配置 ， 默 认 设置 为 均衡 
句 运 行 间隔 周期 的 一 半 ， 即 两 分 半 钟 。 


用 户 可 以 通过 均衡 器 开关 来 控制 均衡 器 : 使 用 Shell 的 
balance_swith 命令 来 更 改 均 衡 恬 的 开局 和 关闭 状态 ， 或 者 使 用 
balanceSwitch() 接口 来 做 同样 的 事情 。 当 禁用 均衡 器 的 时 候 ， 它 
将 不 会 如 预期 一 样 目 动 运行 。 


均衡 器 可 以 显 式 地 使 用 balancer 命令 进行 启动 ， 同 时 也 可 以 使 用 
API 中 的 balancer( ) 方法 。 以 上 介绍 的 目 动 均衡 过 程 会 隐 式 地 调用 
这 个 方法 。HBase 会 判断 如 果 需 要 负载 均衡 就 返回 true ， 返 回 false 
则 意味 着 不 能 运行 均衡 器 ， 原 因 要 么 是 开关 人 被 天 闭 或 者 没有 工作 需要 
做 (已 经 达到 均衡 了 ) ， 也 有 可 能 其 他 工作 阻止 了 其 运行 。 例 如 ， 一 
个 region 处 于 事务 列表 中 〈 参 见 6.5.1 节 的 “主页 ”部 分 ) : 如 果 一 个 
region 正 处 于 状态 转换 时 ， 均 衡 操 作 将 会 被 跳 过 。 


除了 依赖 均衡 器 完成 自己 的 工作 ， 用 户 还 可 以 使 用 move 命令 和 
API 方 法 显 式 地 将 region 移 动 到 男 一 个 服务 器 上 。 当 用 户 想 控制 某 张 表 
特定 region 的 确切 位 置 时 ， 这 种 方法 是 很 有 用 的 。 详 细 内 容 请 参见 
11.4.27 ° 


11.6 ”合并 region 


当 用 户 同 相 应 的 表 中 插入 数据 时 ，region 目 动 拆 分 的 情况 是 很 稼 
见 的 。 当 然 在 某 些 特殊 情况 下 ， 用 户 有 可 能 需要 合并 region， 例 如 ， 
用 户 删 除 大 量 数 据 并 且 想 减少 每 个 服务 占 管 理 的 region 数 目 。 


HBase 集 成 了 一 个 工具 能 够 让 用 户 在 集群 没有 工作 时 合并 两 个 相 
邻 的 region。 可 以 使 用 命令 行 工具 来 获得 使 用 说 明 : 


$./bin/hbase org.apache.hadoop.hbase.util.Merge 


Usage: bin/hbase merge< table-name>< region-1>< region-2> 


以 下 例子 中 ， 有 一 张 表 的 region 超 过 一 个 ， 接 下 来 将 合并 它们 : 


$./bin/hbase shell 


hbase(main):001:0>create 'testtable', 'colfam1',\ 


{SPLITS => ['row-10', 'row-20', 'row-30', 'row-40', 'row-50']} 


© row(s)in 0.2640 seconds 


hbase(main):002:0>for i in '0'..'9' do for j in '0'..'9' do \ 


put 'testtable', "row-#{i}#{j}","colfam1:#4{j}","#{j}" end end 


© row(s)in 1.0450 seconds 


hbase(main):003:0>flush 'testtable' 


© row(s)in 0.2000 seconds 


hbase(main):004:0>scan '.META.', { COLUMNS => ['info:regioninfo' ]} 


ROW COLUMN+CELL 
testtable, , 1309614509037 .612d1e0112 
column=info:regioninfo, timestamp= 130... 
406e6c2bb482eeaec57322. STARTKEY => 
10' 

testtable, row-10, 1309614509040. 2fba 
column=info:regioninfo, timestamp=130... 
fcc9bc6afac94c465ce5dcabch5d1. STARTKEY => 
'row-20' 

testtable, row-20, 1309614509041.e7c1 
column=info:regioninfo, timestamp=130... 
6267eb30e147e5d988c63d40f982. STARTKEY => 
"row-30' 

testtable, row-30, 1309614509041 .a9cd 
column=info:regioninfo, timestamp=130... 
eicbc7d1a21b1aca2ac7fda30ad8. STARTKEY => 
'row-40' 

testtable, row-40, 1309614509041 .d458 
column=info:regioninfo, timestamp=130... 
236feae097efcf33477e7acc51d4. STARTKEY => 
'row-50' 

testtable, row-50,1309614509041.74a5 
column=info:regioninfo, timestamp= 130... 
7dc7e3e9602d9229b15d4c0357d1. STARTKEY => 


tt 


6 row(s)in 0.0440 seconds 


hbase(main) :005:0>exit 


$./bin/stop-hbase.sh 


'' ENDKEY => 'row- 


"row-10',ENDKEY => 


"row-20',ENDKEY => 


"row-30',ENDKEY => 


"'row-40', ENDKEY => 


"row-50', ENDKEY => 


$./bin/hbase org.apache.hadoop.hbase.util.Merge testtable \ 


testtable, row-20, 1309614509041 .e7c16267eb30e147e5d988c63d40f982. 


\ 


testtable, row-30, 1309614509041 .a9cdeicbc7d1a21b1aca2ac7fda30ad8. 


这 个 例子 创建 了 一 张 有 5 个 拆 分 点 的 表 ， 并 产生 了 6 个 region。 然 


后 其 揪 入 一 些 记 录 并 刷 写 数据 ， 以 保证 有 存储 文件 来 进行 之 后 的 合并 
操作 。 用 户 通过 扫描 方法 来 获得 region 的 名 字 ， 用 户 也 可 以 使 用 master 
的 Web 界 面 ， 在 User Tables 部 分 中 点 击 表 名 获得 region 列 表 。 


—— 注意 ，Shell 如 何 包装 列 值 。region 名 被 拆 分 成 了 两 
行 ， 需 要 分 别 复制 粘贴 。 网 页 界面 在 这 方面 更 加 好 用 一 些 ， 
因为 它 在 独立 的 一 行 一 列 中 显示 了 名 字 。 


在 上 面 的 例子 中 ， 列 值 被 缩 简 到 开始 和 结束 键 的 位 置 。 用 户 可 以 
发 现 create 命令 使 用 拆 分 键 创 建 了 region。 这 个 例子 接 下 来 需要 退出 
Shell 并 停止 HBase 集 群 。 注 意 HDFS 要 保持 运行 ， 因 为 它 需 要 在 每 个 
region 中 读 取 存储 文件 并 将 它们 合并 成 一 个 新 的 存储 文件 。 


11.7 客户 端 API: 最 佳 实践 


当 用 户 通过 客户 端 使 用 接口 读 写 数 据 的 时 候 ， 有 许多 优化 方法 可 
供 选 择 来 提升 性 能 。 这 里 是 最 佳 实践 选项 的 列表 : 


禁止 目 动 刷 写 

当 有 大 量 的 写 入 操作 时 ， 使 用 SetAutoFLush(false) 方法 ， 
确认 HTable 自动 刷 写 的 特性 已 经 被 关闭 。 否 则 Put 实例 将 会 被 逐个 
传送 到 region 服 务 器 。 通 过 HTable.add(Put) 和 
HTable.add(Put) 添加 的 put 实例 都 会 添加 到 一 个 相同 的 写 入 缓存 


中 ， 如 果 用 户 禁 用 了 自动 刷 写 ， 这 些 操 作 直 到 写 缓冲 区 被 填 满 时 才 会 
被 送出 。 如 采 要 显 式 地 刷 写 数据 ， 用 户 可 以 调用 flushCcommits() 
方法 。 调 用 HTable 实例 的 close 方法 也 会 隐 式 地 调用 
FflushCommits() ° 


使 用 扫描 缓存 


如 果 HBase 被 用 作 一 个 MapReduce 作 业 的 输入 源 ， 请 最 好 将 作为 
MapReduce 作 业 输 入 扫描 器 实例 的 缓存 用 setcaching( ) 方法 设置 为 
比 默认 值 1 大 得 多 的 值 。 使 用 默认 的 值 意 味 着 map 任 务 会 在 处 理 每 条 记 
永 时 都 请 求 region 服 务 右 。 例 如 ， 将 这 个 值 设置 为 500， 则 一 次 可 以 传 
送 500 行 数据 到 客户 端 进行 处 理 。 这 里 用 户 需 要 权衡 传输 数据 的 开销 和 
内 存 的 开销 ， 因 为 缓存 更 大 之 后 ， 无 论 是 客户 端 还 是 服务 右 端 都 将 消 
耗 更 多 内 存 缓存 数据 ， 所 以 大 的 缓存 并 不 一 定 最 好 。 


限定 扫描 范围 


当 Scan 被 用 来 处 理 大 量 行 时 (特别 是 被 用 作 MapReduce 输 入 源 
时 ) ， 注 意 哪些 属性 被 选中 了 。 如 果 Scan.addFamily() 被 调用 
了 ， 那 么 特定 列 族 中 的 所 有 列 都 将 会 被 返回 到 客户 端 。 如 果 只 处 理 少 
数列 ， 则 应 当 只 有 这 些 列 被 添加 到 Scan 的 输入 中 ， 因 为 选择 了 过 多 
的 列 将 导致 在 大 数据 集 上 极 大 的 效率 损失 ， 这 可 不 是 一 件 小 事 。 


关闭 ResultScanner 


这 不 会 带 来 性 能 提升 ， 但 是 会 避免 可 能 的 性 能 问题 。 如 果 用 户 志 
记 关 闭 由 HTable.getScanner() 返回 的 ResultScanner 实例 ， 
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一 定 要 在 try/catch 的 finally 块 中 关闭 ResultScanner ， 例 如 : 


Scan scan = new Scan(); 
// configure scan instance 
ResultScanner scanner = table.getScanner(scan); 
try { 
for(Result result : scanner) { 
// process result... 
} finally { 
scanner.close(); // always close the scanner! 


} 
table.close(); 


块 缓存 用 法 


Scan 实例 能 够 通过 sScan 实例 能 够 通过 setCcacheBlocks() 
方 etCcacheBlocks( ) 方法 来 设置 使 用 region 服 务 属 中 的 块 缓存 。 如 
果 MapReduce 作 业 中 使 用 扫描 ， 这 个 方法 应 当 被 设置 成 false 。 对 于 
那些 频繁 访问 的 行 ， 建 议 使 用 块 缓存 。 


优化 获取 行 键 的 方式 


当 执 行 一 个 表 的 扫描 以 获取 需要 的 行 键 时 (没有 列 族 、 列 名 、 列 
EMER) ， 在 Scan 中 用 setFilter() 方法 添加 一 个 带 
MUST_PASS_ALL 操作 符 的 FijlterList 。FilterList 中 包含 
FirstKeyFilter 和 KeyOnlyFilter 两 个 过 滤器 ， 在 4.1.3 节 中 提 到 
过 。 使 用 以 上 组 合 的 过 滤器 将 会 把 发 现 的 第 一 个 KeyValue 行 键 (也 
就 是 第 一 列 的 行 键 ) 返回 给 客户 端 ， 这 将 会 最 大 程度 地 减少 网 络 传 


输 。 
关闭 Put 上 的 WAL 


一 个 经 名 讨论 的 提高 写 吞 吐 量 的 方式 是 使 用 Put 的 
writeTowWAL(false) 来 关闭 WAL。 这 样 服务 器 端 就 不 会 把 这 个 Put 
瑟 下 WAL 中 ， 而 只 把 它 写 到 memstore 里 ， 不 过 一 旦 region 服 务 器 出 现 
故障 就 会 丢失 数据 。 如 果 用 户 使 用 了 writeToWAL(false) ， 请 特别 
小 心 。 用 户 可 能 会 发 现 把 数据 在 集群 间 分 布 均匀 后 ， 关 闭 日 志 所 带 来 
的 性 能 提升 并 不 明显 。 


总 而 言 之 ， 最 好 是 在 写 入 数据 时 使 用 WAL， 并 且 如 果 特 别 关 心 知 
吐 量 的 话 ， 束 用 批量 导入 (bulk load) 技术 ， 这 个 技术 将 在 12.2.3 世 中 
HEITIT ° 


11.8 ME 


用 户 可 以 使 用 许多 的 配置 项 来 优化 集群 。2.6 了 列举 出 了 运行 集群 
时 用 户 需要 更 改 和 设置 的 内 容 。 这 里 也 有 一 些 高 级 选项 ， 用 户 需 要 根 


据 应 用 的 需求 来 调整 它们 。 下 面 是 一 些 闻 见 的 配置 项 和 应 当 如 何 调整 
它们 的 说 明 。 


一 一 公主 要 的 配置 都 放 在 了 配置 文件 hbase-site.xml 中 。 
编辑 这 个 文件 ， 然 后 将 文件 复制 到 集群 的 所 有 服务 器 上 ， 并 
重启 所 有 服务 器 来 使 更 新 的 配置 生效 。 


减少 ZooKeeper 超 时 的 发 生 


默认 在 region 服 务 器 和 ZooKeeper 集群 之 间 的 超时 时 间 是 3 分 钟 ， 
并 使 用 zookeeper .session. timeout 属性 来 设置 。 这 意味 着 ， 如 
果 服 务 器 月 并，master 将 在 3 分 钟 后 发 现 这 个 月 浇 现象 ， 并 开始 恢复 数 
据 。 用 户 可 以 将 这 个 时 间 设 为 1 分 钟 或 者 更 少 ， 这 样 master 束 能够 很 快 
地 发 现 这 一 故障 。 


在 改变 值 之 前 ， 确 认 用 户 服务 器 上 JVM 的 垃圾 回收 机 制 是 受 欣 
的 ， 因 为 长 时 间 上 垃圾 回收 且 回 收 运行 时 间 超 过 ZooKeeper 会 话 的 超时 上 
限 可 能 导致 region 服 务 絮 被 误 认 为 朋 浇 。 不 过 如 果 这 是 用 户 所 需要 的 
ISLA Sa: 用 户 可 能 希望 在 region 服 务 器 进行 长 时 间 垃 圾 回收 时 
启动 数据 恢复 ， 这 样 数据 可 能 会 更 快 变 为 可 用 。 


默认 值 特别 长 的 原因 古 为 了 避免 在 大 数据 导入 的 情况 下 产生 问 
题 : 写 入 大 量 数据 时 会 对 region 服 务 右 产生 很 大 的 压力 ， 这 样 更 有 可 
能 导致 出 现 垃圾 回收 暂 俘 的 问题 。 参 见 12.5.3 节 中 “稳定 性 问题 "部 分 介 
绍 的 方法 来 检测 这 种 停顿 。 


增加 处 理 线程 
hbase. regionserver.handler.count 属性 定义 了 响应 外 部 


用 户 访问 数据 表 请 求 的 线程 数 。 默 认 值 10 有 些 偏 小 ， 这 是 为 了 防止 用 
户 在 客户 端 高 并 发 使 用 较 大 写 缓 冲 区 的 情况 下 使 服务 万 端 过 载 。 将 这 


个 值 设 得 小 是 为 了 优化 单 次 请 求 涉及 的 数据 量 达 到 MB 级 别 (如 较 大 
的 写 入 和 使 用 大 缓存 的 扫描 ) 场景 ， 而 当 单 次 请 求 开 销 较 小 时 (如 
get、 较 小 的 put、increment 和 delete 等 操作 ) 可 以 将 工作 线程 数 设 得 高 
Lb 。 


如 采 客 户 端的 请 求 开 销 较 小 时 ， 用 户 将 该 属性 设置 为 最 大 的 客户 
端 数 目 会 比较 安全 。 典 型 的 例子 就是 ， 当 一 个 集群 服务 于 一 个 网 站 
时 ， 写 请 求 一 般 不 会 使 用 缓存 ， 同 时 大 多 数 的 请 求 都 是 读 取 数 据 。 


将 这 个 值 设 置 得 高 也 有 可 能 产生 问题 ， 因 为 并 发 的 写 请 求 涉及 到 
的 数据 累加 起 来 之 后 很 可 能 会 对 一 个 region 服 务 需 的 内 存 造成 巨大 压 
力 ， 这 甚至 会 导致 服务 器 端 搜 出 OutofMemoryError 异常 。region 服 
务 器 运行 在 可 用 内 存 过 低 的 情况 下 时 ， 其 将 会 使 VM 的 垃圾 回收 器 运 
行 地 更 加 频繁 ， 同 时 随 之 发 生 的 停顿 也 会 更 加 明显 (原因 是 内 存 都 被 
写 请 求 占用 ， 无 论 垃圾 回收 器 怎么 尝试 ， 它 们 都 不 能 被 回收 ) 。 一 段 
时 间 后 ， 集 群 的 吞吐 量 就 会 受到 影响 ， 因 为 命中 这 个 服务 器 的 请 求 都 
会 变 慢 ， 这 样 会 使 其 内 存 紧张 的 情况 更 加 严重 。 


增加 堆 大 小 
HBase 寺 认 使 用 一 组 合理 并 且 保 守 的 配置 ， 该 配置 可 以 满足 大 多 
数 不 同 机 型 的 测试 需求 。 如 采用 户 使 用 更 好 的 服务 右 ， 则 其 可 以 给 


HBase 分 配 8 GB 或 更 大 的 内 存 空 间 。 用 户 可 以 在 habse-envsh 文件 中 调 
整 HBASE_HEAPSIZE 的 设置 。 


注意 ， 使 用 HBASE_REGIONSERVER_OPTS 而 非 全 局 的 
HBASE_HEAPSIZE : 在 这 种 方式 下 ，master 将 会 以 默认 1 GB 的 堆 运 
行 ，region 服 务 器 则 会 按 用 户 单独 指定 的 堆 空间 运行 。 


这 个 配置 项 在 hbase-env.sh 文件 中 ，hbase-site.xml 文件 则 用 于 其 他 
大 多 数 属 性 。 
启用 数据 压缩 


用 户 应 当 为 存储 文件 局 用 压缩 ， 尤 其 推荐 使 用 Snappy 或 者 LZO 压 
缩 。 这 两 个 近乎 平滑 的 压缩 算法 在 大 多 数 应 用 中 都 能 够 使 应 用 性 能 得 
到 提升 。 参 见 11.3 市 以 获取 所 有 有 关 压 缩 算法 的 信息 。 


增加 region 大 小 


更 大 的 region 可 以 减少 集群 总 的 region 数 目 。 一 般 来 说 ， 管 理 较 少 
的 region 可 以 让 集群 的 运行 更 平稳 。 一 个 region 变 热点 后 ， 用 户 可 以 手 
动 拆 分 大 的 region 并 将 负载 分 散 到 集群 中 ，11.4 广 有 更 详 介 绍 。 


在 默认 情况 下 ，region 的 大 小 是 256 MB ° 用户 可 以 配置 1 GB 或 者 
更 大 的 region。 注 意 ， 该 参数 的 大 小 要 仔细 评估 ， 大 的 region 也 意味 着 
在 高 负载 的 情况 下 合并 的 停顿 时 间 更 长 。 


用 户 可 以 在 hbase-site.xml 文件 中 调整 
hbase .hregion.max.filesize 属性 的 值 。 


调整 块 缓存 大 小 


控制 扒 中 块 缓存 大 小 的 属性 是 一 个 用 浮 点 数 类 型 的 百分比 值 ， 默 
认 值 是 20% ( 即 0.2) 。 改 变 perf.hfile.block.cache.size 属 
性 可 以 改变 这 个 百分比 值 。 仔 细 观 察 块 缓存 的 使 用 情况 (参见 10.2.3 
T) ， 看 看 是 否 存在 许多 块 被 换 出 的 情况 。 如 果 存 在 这 种 情况 ， 用 户 
残 可 以 考虑 增加 块 缓存 大 小 来 容纳 更 多 的 块 。 


用 户 负载 大 多 数 为 读 请 求 是 万 一 个 增加 块 缓存 大 小 的 原因 。 此 时 
0 增加 块 缓存 的 大 小 可 以 帮助 用 户 缓存 更 多 
JZ o 


| 

性 ”， 块 缓存 与 memstore 的 上 限 不 能 超过 1009%。 用 户 需 
要 为 其 他 操作 保留 空间 ， 不 然 服务 器 端 可 能 面临 内 存 紧张 的 
问题 。 默 认 它们 占用 的 堆 空 间 量 是 60%， 这 是 一 个 合理 的 
值 。 只 有 当 用 户 确认 有 必要 并 且 不 会 造成 副作用 时 ， 用 户 才 
能 为 其 设 定 超过 这 个 上 限 的 值 。 


调整 memstore 限 制 
内 存 存储 占用 的 堆 大 小 用 


hbase.regionserver.global.memstore.upperLimit 属性 来 
配置 ， 默 认 值 为 40% (设置 为 0.4) 。 此 外 ， 
hbase.regionserver.global.memstore. lowerLimit 属性 

(设置 为 35% 或 者 0.35) 用 于 控制 当 服 务 恬 清空 nemstore 之 后 剩余 的 大 
小 。 将 上 限 和 下 限 设 置 得 接近 一 些 以 避免 过 度 刷 写 。 


当 用 户主 要 在 处 理 读 请 求 时 ， 其 可 以 考虑 同时 减少 memstore 的 上 
下 限 来 增加 块 缓存 的 空间 。 另 一 方面 ， 当 用 户 在 处 理 许多 写 请 求 时 应 
该 检查 日 志文 件 (或 者 使 用 10.2.3 节 中 提 到 的 region 服 务 器 监控 ) ， 如 
果 刷 写 的 数据 量 都 很 小 ,如 5 MB， 用 户 束 有 必要 通过 增加 内 存 存 储 的 
限制 来 降低 过 度 IO 操 作 。 


增加 阻塞 时 存储 文件 数目 


这 个 值 是 通过 hbase,hstore.blockingStoreFiles 属性 来 
设置 的 ， 它 决定 了 当 存 储 文件 的 数目 达到 阐 值 时 ， 更 新 操作 (put > 
delete) 将 会 被 阻 赛 ， 并 以 此 来 给 合并 操作 留 出 时 间 来 减少 存储 文件 
的 数目 。 当 应 用 经 常 遇 到 大 负载 的 突 发 写 入 请 求 时 ， 用 户 需 要 稍稍 增 
加 这 个 值 来 应 对 这 种 情况 ， 其 默认 值 是 7。 


用 户 可 以 使 用 监控 来 观察 region 服 务 器 管理 的 存储 文件 数目 ， 如 
果 文 件数 一 直 很 高 ， 那 么 用 户 可 能 不 适合 提高 这 个 配置 项 的 大 小 ， 
为 这 样 做 只 会 延 玉 由 于 服务 大 负载 过 重 而 产生 的 无 法 避免 的 问题 。 
增加 阻塞 倍率 

js tEhbase.hregion.memstore.block.multiplier 的 默 
认 值 为 2， 它 是 一 个 用 于 阻 窗 来 目 客 户 端 更 刹 数 据 请 求 的 安全 门 值 ， 当 


memstore 达 到 属性 multiplier X LA flush 的 大 小 限制 时 会 阻止 进一步 的 更 
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当 有 足够 的 存储 空间 时 ， 用 户 可 以 增加 这 个 值 来 更 加 平 消 地 处 理 
写 入 突 发 流量 : 与 阻塞 更 新 操 来 等 待 memstore 完 成 刷 写 相 比 ， 用 户 可 
以 临时 接收 更 多 的 数据 。 


减少 最 大 日 志文 件 限制 


设置 hbase .regionserver .maxlogs 属性 使 得 用 户 能 够 控制 
基于 人 磁盘 的 WAL 文 件数 目 ， 进 而 控制 刷 写 频率 。 该 参数 的 默认 值 是 
32， 对 于 写 压 力 比较 大 的 应 用 来 说 这 个 值 有 点 高 。 降 低 这 个 值 会 强迫 
服务 器 更 频繁 地 将 数据 刷 写 到 磁盘 上 ， 这 样 已 经 刷 写 到 磁盘 上 的 数据 
所 对 应 的 日 志 就 可 以 被 丢弃 了 。 


11.9 ”负载 测试 


在 安 痰 好 集群 之 后 ， 建 议 运行 负载 测试 来 验证 集群 功能 。 这 些 济 
试 能 够 在 用 户 修改 集群 设置 或 者 表 结 构 后 提供 对 比 的 基准 线 。 在 用 户 
的 集群 上 执行 一 个 负载 测试 可 以 告诉 用 户 集群 所 能 达到 的 性 能 ， 但 是 
这 并 不 能 够 取代 使 用 实际 用 例 负 载 的 测试 。 


11.9.1 ”性 能 评价 


HBase 有 自己 的 性 能 评价 工具 ， 名 为 PE (Performance 
Evaluation) 。 用 户 可 以 在 不 加 命令 行 参数 时 使 用 它 以 获得 使 用 帮助 : 


$./bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 


Usage: Java org.apache.hadoop.hbase.PerformanceEvaluation \ 
[--miniCluster] [--nomapred] [--rows=ROWS] < command>< nclients> 


Options: 

miniCluster Run the test on an HBaseMiniCluster 

nomapred Run multiple clients using threads(rather than use 
map reduce) 

rows Rows each client runs. Default: One million 


fFlushCommits Used to determine if the test should flush the 
table. 


Default: false 


writeTOWAL Set writeTOWAL on puts. Default: True 

Command: 

filterScan Run scan test using a filter to find a specific 
row based 


on it's value(make sure to use --rows=20) 
randomRead Run random read test 


randomSeekScan Run random seek and scan 100 test 


randomwrite Run random write test 
scan Run scan test(read every row) 
scanRange10 Run random seek scan with both start and stop 


row(max 10 rows) 

scanRange100 Run random seek scan with both start and stop 
row(max 100 rows) 

scanRange1000 Run random seek scan with both start and stop 
row(max 1000 rows) 

scanRange10000 Run random seek scan with both start and stop 
row(max 10000 rows) 

sequentialRead Run sequential read test 

sequentialwrite Run sequential write test 


Args: 

nclients Integer. Required. Total number of clients(and 
HRegionServers ) 

running: 1 < = value < = 500 

Examples: 

To run a single evaluation client: 

$ bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 
sequentialwrite 1 


PE 默认 是 作为 MapReduce 作 业 来 执行 的 ， 除 非 用 户 指定 一 个 客户 
端 或 使 用 - -nomap red 参数 。 用 户 可 以 通过 上 述 信 息 来 查看 默认 值 ， 
默认 值 都 是 较为 合理 的 起 始 值 ， 以 下 是 运行 测试 的 例子 : 


$./bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 
sequentialWrite 1 


11/07/03 13:18:34 INFO hbase.PerformanceEvaluation: Start class \ 


org.apache.hadoop.hbase.PerformanceEvaluation$SequentialwriteTest 
at \ 


offset 0 for 1048576 rows 


11/07/03 13:18:41 INFO hbase.PerformanceEvaluation: 
0/104857/1048576 


11/07/03 13:18:45 INFO hbase.PerformanceEvaluation: 
0/209714/1048576 


11/07/03 13:20:03 INFO hbase.PerformanceEvaluation: 
0/1048570/1048576 
11/07/03 13:20:03 INFO hbase.PerformanceEvaluation: Finished class 


\ 


org.apache.hadoop.hbase.PerformanceEvaluation$SequentialwriteTest 
\ 


in 89062ms at offset 0 for 1048576 rows 


命令 行 创建 一 个 单独 客户 端 ， 并 且 执行 连续 的 写 入 测试 。 命 令 行 
将 一 直 显示 完成 的 进度 直到 打印 最 后 的 结果 。 当 用 户 确定 客户 端 服务 


器 负载 并 不 太 大 时 ， 可 以 增加 一 定数 量 的 客户 端 (也 就 是 说 线程 或 者 
MapReduce 任 务 ) 


这 里 不 需要 指定 表 名 ， 不 需要 设 定 列 族 ，PE 代 码 会 自动 生成 表 和 
对 应 的 模式 : 一 张 拥 有 一 个 叫做 info 的 列 族 的 名 字 为 TestTable 的 
表 。 


| we i 
一 一 用户 需 要 在 做 读 测试 之 前 运行 过 写 测试 ， 写 测试 
将 会 生成 表 并 插入 数据 ， 该 数据 可 供 后 面 的 读 测 试 使 用 。 


使 用 随机 或 顺序 的 读 写 测试 可 以 帮助 用 户 模 拟 特定 的 负载， 但 用 
户 不 能 把 它们 混合 在 一 起 测试 ， 也 就 是 说 用 户 只 能 把 它们 分 开 测试 。 


11.9.2 YCSB 


Yahoo 的 云 服务 基准 测试 系统 (Yahoo! Cloud Serving Benchmark 2 
，YCSB) 是 一 套用 于 比较 不 同系 统 的 工具 。 虽 然 它 主要 用 于 比较 不 
同系 统 之 间 的 性 能 ， 但 它 同 样 也 适用 于 对 HBase 集 群 进行 超人 负 傈 测 


试 


安装 


YCSB 只 能 够 通过 网 络 库 获取 ， 并 需要 目 己 编译 二 进 
制 文件 。 首 先 要 做 的 事情 是 复制 网 络 库 的 内 容 : 


$git clone http://github.com/brianfrankcooper/YCSB. git 


Initialized empty Git repository in /private/tmp/YCSB/.git/ 


Resolving deltas: 100%(475/475),done. 


这 将 会 在 当前 目录 下 创建 一 个 本 地 YCSB 目录 。 接 下 来 的 步骤 就 
是 进入 新 创建 的 目录 ， 复 制 HBase 所 需要 的 库 并 编译 可 执行 文件 : 


$cd YCSB/ 

$cp $HBASE_HOME/hbase*.jar db/hbase/lib/ 
$cp $HBASE_HOME/1ib / *.jar db/hbase/1lib/ 
$ant 


Buildfile: /private/tmp/YCSB/build. xml 


makejar: 
[jar] Building jar: /private/tmp/YCSB/build/ycsb. jar 


BUILD SUCCESSFUL 
Total time: 1 second 


$ant dbcompile-hbase 


BUILD SUCCESSFUL 
Total time: 1 second 


XSW A ALE TA], Aa ee tebuild 文件 夹 
Re ht Ta 2 


在 用 户 可 以 运行 YCSB 之 前 ， 需 要 创建 所 需 的 测试 表 ， 名 字 为 
Poy 。 虽然 表 名 在 代码 中 是 写 死 的 ， 但 是 用 户 可 以 自由 命名 
列 族 ， 例 如 : 


$./bin/hbase shell 


hbase(main):001:0>create 'usertable', 'family' 


© row(s)in 0.3420 seconds 


如 果 用 户 无 参数 运行 YCSB，YCSB 会 为 用 户 提 供 使 用 帮助 : 


$Java -cp build/ycsb.jar:db/hbase/lib/ * com.yahoo.ycsb.Client 


Usage: Java com.yahoo.ycsb.Client [options] 
Options: 
-threads n: execute using n threads(default: 1)- can also be 
specified as the 
"threadcount" property using -p 
-target n: attempt to do n operations per second(default: 
unlimited)- can also 
be specified as the "target" property using -p 
-load: run the loading phase of the workload 
-t: run the transactions phase of the workload(default ) 
-db dbname: specify the name of the DB to use(default: 
com.yahoo.ycsb. BasicDB) - 
can also be specified as the "db" property using -p 
-P propertyfile: load properties from the given file. Multiple 
files can 
be specified, and will be processed in the order 


specified 
-p name=value: specify a property to be passed to the DB and 
workloads; 
multiple properties can be specified,and override 
any 
values in the propertyfile 
-S: show status during run(default: no status) 
- label: use label for status(e.g. to label one experiment out 
of a whole 
batch) 


Required properties: 
workload: the name of the workload class to use 
(e.g. com.yahoo.ycsb.workloads.CoreWorkload) 


To run the transaction phase from multiple servers,start a 
separate client 

on each. To run the load phase from multiple servers,start a 
separate client 

on each;additionally,use the "insertcount" and "insertstart" 
properties to 

divide up the records to be inserted 


测 弃 运 行 中 HBase 集 群 的 第 一 步 症 加 载 一 定数 量 的 记录 ， 这 些 记 
杂 接 下 来 会 用 于 修改 相同 的 行 ， 或 者 往 表 中 加 入 新 的 记录 : 


$Java -cp $HBASE_HOME/conf:build/ycsb.jar:db/hbase/lib/ * \ 
com.yahoo.ycsb.Client -load -db com.yahoo.ycsb.db.HBaseClient \ 


-P workloads/workloada -p columnfamily=family -p 
recordcount=100000000 \ 


-S > ycsb-load.log 


这 个 命令 将 会 运行 一 aT 记录 的 结构 由 给 定 的 导 
AREA, 在 这 里 是 由 workloada 控制 ， 它 包含 以 下 设置 : 


$cat workloads/workloada 


# Yahoo! Cloud System Benchmark 
# Workload A: Update heavy workload 
Application example: Session store recording recent actions 


Read/update ratio: 50/50 

Default data size: 1 KB records(10 fields,100 bytes each, plus 
ey) 

Request distribution: zipfian 


recordcount=1000 
operationcount=1000 
workload=com. yahoo. ycsb.workloads.CoreWorkload 


readallfields=true 
readproportion=0.5 
updateproportion=0.5 
scanproportion=0 
insertproportion=0 


requestdistribution=zipfian 


用 户 可 以 参考 YCSB 的 联机 文档 来 查阅 关于 如 何 修改 记录 结构 的 
详细 说 明 ， 以 外 ， 用 户 也 可 以 按照 目 己 的 意愿 来 调整 设置 。 文 件 中 指 
定 了 使 用 load 语句 时 产生 的 数据 大 小 以 及 列 的 数量 。 这 个 工具 的 输 
出 将 重 定向 到 日 志文 件 ， 内 容 如 下 : 


YCSB Client 0.1 


Command line: -load -db com.yahoo.ycsb.db.HBaseClient -P 
workloads/ workloada \ 

-p columnfamily=family -p recordcount=100000000 -s 
[ OVERALL ],RunTime(ms),915.0 

[OVERALL], Throughput (ops/sec),1092.896174863388 

[ INSERT], Operations, 1000 

[ INSERT ],AverageLatency(ms),0.457 

[ INSERT],MinLatency(ms),0 

[ INSERT ],MaxLatency(ms), 314 

[INSERT], 95thPercentileLatency(ms),1 

[ INSERT],99thPercentileLatency(ms),1 

[INSERT], Return=0, 1000 

[INSERT], 0,856 


[INSERT],1,143 
[INSERT], 2,0 
[INSERT], 3,0 
[INSERT],4,0 


ult tec) S ERER G TOA MEE o SUA Rae 
1000 行 ， 我 们 增加 了 记录 数 来 反映 更 真实 的 负载 情况 。 用 户 可 以 在 命 
令 行 上 修改 任何 一 个 设置 选项 。 如 采用 户 经 冲 使 用 同一 种 结构 ， 那 么 
用 户 可 以 通过 命令 行使 用 -P 参数 来 引用 它 。 


YCSB 性 能 测试 的 第 二 步 是 在 准备 好 的 表 上 执行 负载 测试 作业 ， 


例如 


$Java -cp $HBASE_HOME:build/ycsb.jar:db/hbase/lib/ * \ 
com.yahoo.ycsb.Client -t -db com.yahoo.ycsb.db.HBaseClient \ 


-P workloads/workloada -p columnfamily=family -p 
operationcount=1000000 -s \ 


-threads 10 > ycsb-test.log 


与 上 述 的 载 入 步 又 相同 ， 用 户 需 要 根据 目 己 的 需求 改变 一 些 参 
数 : 增加 (或 者 用 你 自己 修改 过 的 结构 文件 ) 测试 操作 的 次 数 ， 并 将 
并 发 的 线程 数 设置 为 一 个 合理 的 值 。 如 采用 户 使 用 了 太 多 的 线程 ， 这 
将 会 使 测试 机 ( 即 运行 YCSB 的 服务 器 ) 负载 过 重 。 在 这 样 的 情况 
下 ， 最 好 的 方法 就 古 在 不 同 的 机 器 上 同时 运行 相同 的 测试 。 


输出 也 被 重 定向 到 了 日 志文 件 ， 这 样 用 户 就 能 够 在 测试 完成 之 后 
进行 评估 了 。 输 出 将 包含 以 下 这 些 行 : 


]$ cat transactions.dat 
YCSB Client 0.1 


Command line: -t -db com.yahoo.ycsb.db.HBaseClient -P 
workloads/workloada -p \ 

columnfamily=family -p operationcount=1000 -s -threads 10 
[OVERALL], RunTime(ms),575.0 

[OVERALL], Throughput (ops/sec),1739.1304347826087 

[ UPDATE], Operations, 507 

[ UPDATE], AverageLatency(ms),2.546351084812623 

[ UPDATE],MinLatency(ms),0 

[UPDATE] ,MaxLatency(ms), 414 

[UPDATE], 95thPercentileLatency(ms),1 
[UPDATE],99thPercentileLatency(ms),1 

[UPDATE], Return=0, 507 

[UPDATE], 0,455 

[UPDATE] ,1, 49 

[UPDATE], 2,0 

[UPDATE], 3,0 


[UPDATE], 997, 0 

[UPDATE], 998, 0 

[UPDATE], 999, 0 

[UPDATE], >1000, 0 

[READ], Operations, 493 

[READ], AverageLatency(ms),7.711967545638945 
[READ],MinLatency(ms),0 
[READ],MaxLatency(ms),417 

[READ], 95thPercentileLatency(ms),3 
[READ], 99thPercentileLatency(ms),416 
[READ], Return=0, 493 

[READ],0,1 

[READ],1,165 

[READ], 2,257 

[READ], 3,48 

[READ], 4,11 

[READ], 5,4 

[READ], 6,0 


[READ], 998,0 
[READ], 999,0 
[READ], >1000, 0 


注意 ，YCSB 很 难 模拟 应 用 负载 ， 但 使 用 它 的 测试 仍旧 是 有 意义 
的 ， 因 为 它 可 以 测试 集群 在 不 同 负 载 下 的 表现 。 使 用 默认 提供 的 结构 
文件 或 者 目 己 创建 的 结构 文件 来 模拟 读 写 或 读 写 混合 的 操作 。 


当 用 户 运 行 批 量 作业 时 ， 例 如 ，MapReduce 处 理 或 扫描 一 个 数据 
集合 或 整 张 表 ， 同 时 也 可 以 运行 YCSB 来 测试 各 种 操作 之 间 的 影响 。 
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对 写 操作 来 说 ， 与 HBase 提 供 的 性 能 评估 工具 相 
比 ，YCSB 更 加 适合 。 因 为 它 提供 了 更 多 的 选项 ， 并 且 能 够 
将 读 写 负载 混合 在 一 起 。 


© 演示 的 视屏 可 以 在 网 上 下 载 ( http://horfolk.cs.washington.edu/htbin- 
post/unrestricted/Collog/details.cgi?id=437 ) ° 


© Java 使 用 Java 本 地 接口 (Java Native Interface, JNI) 来 与 本 地 库 或 
应 用 集成 。 


@ 见 维基 百科 页 面 “Using LZO Compression” ( 
http://wiki.apache.org/hadoop/UsingLzoCompression ) ， 其 中 有 在 HBase 
中 使 用 LZO 的 详细 介绍 。 

@ Hadoop 项 目 有 一 个 页 面 ( 
http://hadoop.apache.org/common/docs/current/nativelibraries.html ) 专 
门 介绍 编译 和 或 安装 本 地 库 的 方法 ， 其 中 包括 GZIP 的 内 容 。 


© 作为 另 一 种 选择 ， 用 户 也 可 以 查看 master UI 页 面 的 TPS， 参 见 6.5.1 
节 中 的 “主页 ”部 分 。 


© 在 HBase 0.92.0 中 ， 开 发 人 员 已 经 完成 了 很 多 改善 工作 。 


© 参见 GitHub 库 中 的 工程 ( http://grthub.com/brianfrankcooper/YCSB 
) 来 查看 细 广 信息 。 


第 12 章 ”集群 管理 


一 旦 集群 开始 运转 ， 用 户 可 能 会 想 要 改变 集群 的 大 小 或 添加 一 些 
额外 的 机 制 来 应 对 出 现 的 故障 ， 这 些 可 能 需要 在 集群 正在 提供 服务 时 
进行 。 有 时 用 户 需 要 将 数据 备份 或 迁移 到 不 同 的 集群 。 接 下 来 我 们 会 
介绍 如 何在 对 集群 造成 最 小 影响 的 情况 下 完成 这 些 工作 。 


12.1 运 维 任务 


本 广 介 绍 了 控 作 集群 时 所 必需 的 一 些 任务 ， 包 括 增加 和 移 除 节 


12.1.1 减少 节点 
用 户 可 以 在 指定 节点 的 HBase 目 了 永 下 使 用 以 下 命令 停止 集群 中 的 


一 个 region 服 务 器 。 


$ ./bin/hbase-daemon.sh stop regionserver 


region 服务 器 会 先 将 它 所 有 的 region 关闭 ， 然 后 再 把 自己 的 进程 
停止 。region 服 务 器 在 ZooKeeper 中 对 应 的 临时 节点 (ephemeral 
node) 将 会 过 期 。 master 会 注意 到 region 服 务 絮 停止 服务 并 将 其 按 朋 瀑 
ee master fit BARB as_LAregion Ht #1 7p Ac F) Ete Last 


让 节点 下 线 前 先 禁 用 负载 均衡 


如 果 在 关闭 万 点 时 负载 均衡 还 在 运行 ， 则 在 负载 均衡 
和 master 恢 复 刚 才 下 线 的 region 服务 器 之 间 可 能 产生 竞 
争 。 要 避免 这 种 情况 发 生 ， 请 先 禁用 负载 均衡 : 使 用 
Shell 工 具 进 行 如 下 操作 。 


hbase(main):001:0> balance_switch false 


true 
© row(s)in 0.3590 seconds 


以 上 操作 会 关闭 balancer。 如 需 启 用 ， 请 输入 如 下 命 


hbase(main):002:0> balance_switch true 


false 
© row(s)in 0.3590 seconds 


以 上 停止 region 服务 絮 的 方法 的 坏处 是 ，region 会 下 线 一 段 时 间 ， 
时 间 的 长 度 由 ZooKeeper 超 时 时 间 决 定 。region 是 按 顺序 关闭 的 : 如 果 
服务 器 上 有 很 多 region， 第 一 个 个 天 闭 的 region 要 等 所 有 region 都 关 
闭 ， 且 master 注 意 到 region 服 务 右 的 znode 被 删除 之 后 才能 上 线 。 


HBase 0.90.23 引 入 了 一 种 可 以 让 region 服务 器 逐渐 较 少 其 负载 并 停 
止 服务 的 方法 。 这 项 功能 由 graceful_stop.sh 脚本 完成 。 不 带 参 数 使 用 


时 会 显示 以 下 使 用 说 明 : 


$ ./bin/graceful_stop.sh 


Usage: graceful_stop.sh [--config &conf-dir>] [--restart] [-- 
reload] \ 
[--thrift] [--rest] &hostname> 

thrift If we should stop/start thrift before/after the hbase 
stop/ start 

rest If we should stop/start rest before/after the hbase 
stop/start 

restart If we should restart after graceful stop 

reload Move offloaded regions back on to the stopped server 

debug Move offloaded regions back on to the stopped server 

hostname Hostname of server we are to stop 


如 打 用 户 权 下 线 一 个 region 服务 器 ， 可 以 输入 以 下 内 容 : 


$ ./bin/graceful stop.sh HOSTNAME 


HOSTNAME 是 用 户 要 卸载 的 region 服务 器 。 


él 
Lf ~ 传 入 graceful_stop.sh 的 HOSTNAME 参数 必须 与 
HBase 用 于 辨别 region 服务 器 的 名 字 一 致 。 用 户 可 以 在 
master UI 列表 中 查看 HBase 是 如 何 引 用 每 个 服务 絮 的 。 
region 服 务 顺 标识 通常 情况 下 会 是 hostname ， 也 有 可 能 是 
一 个 全 称 域名 FQDN) ， 例 如 ， 


hostname . foobar .com 。 用 户 需 要 把 HBase 使 用 的 服务 
ane TEN BBE A graceful_stop.sh 脚本 。 


如 果 用 户 传 入 卫 地 址 ， 脚 本 不 会 智能 地 将 其 转换 为 
hostname 或 全 称 域名 ， 同 时 会 在 检查 阶段 出 现 错误 : 这 
种 平滑 地 外 载 region 服务 器 的 方法 不 会 继续 执行 。 


graceful_stop.sh 脚本 会 把 region 从 对 应 的 服务 右上 一 个 个 移出 来 以 
减少 扰动 。 它 会 在 移动 到 下 一 个 region 前 先 检 查 狐 位 置 上 的 region 是 否 
已 经 部 署 好 ， 直 到 对 应 的 要 关 闭 的 服务 右上 没有 region 了 。 


此 时 脚本 会 让 对 应 的 服务 恬 天 闭 。master 会 察觉 到 服务 器 俘 止 了 
服务 ， 不 过 此 时 服务 器 上 的 region 已 经 都 被 转移 并 部 署 好 了 了。 同时， 
由 于 服务 器 关闭 时 没有 region， 所 以 也 不 会 有 WAL 切 分 的 相关 操作 。 


12.1.2 ”滚动 重启 
用 户 也 可 以 使 用 graceful_stop.sh 脚本 来 重启 服务 器 ， 并 将 之 前 属 


于 它 的 region 移 回 原 位 (用 户 可 能 会 选择 后 者 以 保持 数据 的 局 部 
性 ) 。 最 简单 的 滚动 重启 可 以 使 用 以 下 脚本 来 完成 : 


$ for i in 'cat conf/regionservers|sort';do ./bin/graceful_stop.sh 
\ 


--restart --reload --debug $i;done & /tmp/log.txt & 


可 以 使 用 tail 命令 查看 [mp/iog.txt 中 脚本 运行 的 进度 。 以 上 操作 只 
“region a8 效 ， 同 时 请 确保 在 执行 上 述 操作 之 前 已 蔡 用 人 负载 均 


RT 


用 户 需要 单独 对 master 进 行 升 级 ， 同 时 建议 最 好 预先 完成 这 项 工 
作 。 以 下 是 实现 滚动 重启 的 步骤 。 


1. 解压 用 户 要 升级 的 发 行 版 ， 将 配置 调整 好 并 分 发 到 整个 集 
群 。 如 果 用 户 使 用 的 是 0.90.2 版 ， 还 需要 打上 HBASE-3744 和 HBASE- 
3756¢h J ° 


2. 运行 hbck 以 确认 集群 数据 的 一 致 性 (主要 验证 meta 表 ) ， 如 
果 有 不 一 致 的 情况 修复 一 个 。 


$ ./bin/hbase hbck 


3. 重启 master ° 


$ ./bin/hbase-daemon.sh stop master; ./bin/hbase-daemon.sh start 
master 


4. 关闭 region 均 衡器 。 


$ echo "balance_switch false" | ./bin/hbase shell 


5. 在 每 个 region 服务 器 上 运行 graceful_stop.sh 脚本 。 例 如 : 


$ for i in ‘cat conf/regionservers|sort ;do ./bin/graceful_stop.sh 


--restart --reload --debug $i;done &> /tmp/log.txt & 


| 


如 果 用 户 运 行 了 Thrift 或 REST 服务 ， 请 在 运行 脚本 时 传 入 -- 
thrift 或 --rest 选项 ， 详 情 请 参考 之 前 介绍 过 的 使 用 说 明 ( 即 不 加 
任何 参数 运行 脚本 时 得 到 的 使 用 说 明 ) 。 


6， 再 次 重启 master。 这 样 会 清除 其 保存 的 出 溃 的 服务 器 列表 ， 并 
同时 启动 负载 均衡 器 。 


7. 运行 hbck 以 确认 集群 一 致 性 。 
12.1.3 “新 增 服务 器 


HBase 的 一 种 主要 特性 是 内 置 的 高 扩展 性 。 当 用 户 集群 负载 加 重 
时 ， 用 户 需 要 通过 添加 服务 局 来 满足 新 需求 。 添 加 新 服务 器 是 一 种 十 
分 简单 的 操作 ， 并 可 以 在 任何 模式 下 完成 该 操作 ， 分 布 式 模式 请 参见 
2.5.27 ° 


1. 伪 分 布 式 模式 


即使 HBase 的 所 有 后 人 台 程 序 都 在 不 同 的 进程 中 运行 ， 在 本 地 模式 
下 运行 HBase 与 扩展 HBase 看 起 来 仍然 是 矛盾 的 。 伪 分 布 式 模式 是 用 户 
能 使 用 的 最 接近 于 真实 状态 的 运行 情况 的 模拟 。 在 开发 或 原型 设计 
人 


因为 所 有 进程 都 要 分 译本 地 资源 ， 所 以 并 非 局 动 的 服务 进程 越 多 
性 能 越 好 。 实 际 上 ， 伪 分 布 式 模 式 适 合 少量 数据 的 测试 。 此 外 ， 它 几 
平 可 以 让 用 户 测试 HBase 提 供 的 所 有 结构 特性 。 


例如 ， 用 户 可 以 在 master 故 障 恢复 场景 中 或 region 从 一 个 服务 絮 移 
动 到 另 一 个 服务 妖 的 情况 下 进行 实验 。 当 然 ， 这 并 不 能 完全 巷 代 在 真 
实 的 集群 上 使 用 模拟 的 生产 环境 预期 的 负载 进行 测试 。 但 是 ， 它 可 以 
帮助 用 户 使 学 习 使 用 HBase 提 供 的 管理 功能 ， 如 HBase Shell 。 


用 户 也 可 以 使 用 第 5 章 中 介绍 的 HBase 的 管理 API。 用 户 可 以 使 用 
它们 来 开发 管理 表 结 构 或 者 调整 集群 负载 的 工具 。 许 多 生产 环境 下 的 


2 A 所 以 能 在 本 地 移 对 这 些 功能 进行 测试 是 非常 
Tm. ,| O 


一 一 用 户 必 须 先 按 伪 分 布 式 模式 配置 自己 的 安装 ， 同 
时 作为 备份 master 必 须 使 用 以 下 命令 启动 。 以 下 脚本 会 启动 
一 个 新 的 master 进 程 ， 但 不 会 启动 整个 HBase 本 地 集群 。 


添加 本 地 备份 master 。 用 户 可 以 使 用 bin 目录 下 的 local-master- 
backup.sh 脚本 来 启动 本 地 设备 的 masterj 进 程 如 下 所 示 。 


$ ./bin/local-master-backup.sh start 1 


命令 最 后 的 数字 指定 了 master 的 RPC 端 口 和 Web UI 端口 与 默认 配 
置 值 的 偏 移 量 ， 两 端口 的 默认 值 分 别 是 60000 和 60010， 偏 移 量 会 被 加 
到 相应 的 默认 值 上 。 在 上 面 的 命令 中 ， 一 个 新 的 master 进 程 将 会 启 
动 ， 并 与 通常 情况 一 样 读 取 与 原 master 相 同 的 配置 ， 不 过 监听 的 端口 
号 分 别 为 60001 和 60011 ° 


换 名 话说， 这 些 参数 是 必须 填写 的 且 不 代表 用 户 要 局 动 儿 个 备份 


master， 而 只 是 指定 了 启动 的 master 要 使 用 的 端口 。 局 动 多 个 master 进 
程 请 按 下 面 的 方式 输入 : 


$./bin/local-master-backup.sh start 1 3 5 


这 样 会 启动 3 个 用 于 备份 的 master， 分 别 使 用 60001、60003 和 
60005 作 为 RPC 监 听 端 口 ， 同 时 使 用 60011、60013 和 60015 作 为 Web UI 
监听 端口 。 


| 

S 用 户 需要 确定 要 使 用 的 端口 与 其 他 进程 没有 冲 
突 。 例 如 ， 不 要 使 用 30 作 为 偏 移 量 ， 因 为 这 会 使 master 使 用 
60030 为 RPC 端 口 ， 而 这 个 端口 已 被 region 服 务 右 用 作 UI 端 
O o 
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移 量 为 1 时 ， 其 日 志文 件 名 为 : 


logs/hbase-${USER}-1-master-${HOSTNAME}.1log 


注意 ， 文 件 名 中 多 出 的 1。 如 果 使 用 10 作 为 偏 移 量 ， 则 文件 名 中 添 
加 的 应 为 10。 


用 户 想 有 要 俘 止 备份 master 时 ， 可 以 把 start miRNA stop 命 
ay, ARPT: 


$ ./bin/local-master-backup.sh stop 1 


用 户 需 要 指定 需要 停止 的 备份 master 端 口 的 偏 移 量 ， 并 且 可 以 一 
次 停止 一 个 或 多 个 备份 master: 用 户 指定 的 端口 侦 移 量 用 于 停止 对 应 


的 master 


添加 本 地 region 服务 器 。 与 之 相似 ， 用 户 可 以 启动 附加 的 本 地 
region 服 务 器 。 用 户 所 需 使 用 的 脚本 为 local-regionservers.sh ， 同 时 参 
数 类 型 与 local-master-backup.sh 脚本 相同 : 用 户 可 以 指定 端口 偏 移 量 
列表 用 于 启动 和 集 止 对 应 的 服务 进程 。 


不 同 的 是 ，region 服 务 器 默认 使 用 60200 作 为 RPC 端 口 ， 和 60300 作 
为 Web Um O ° Mijan: 


$ ./bin/local-regionservers.sh start 1 


这 条 命令 会 启动 一 个 额外 的 region 服 务 器 ， 并 指定 60201 端 口 为 
RPC 监 听 端 口 ， 以 及 60301 端 口 为 web UI 监 听 端 口 。 同 时 为 日 志文 件 名 
添加 这 个 偏 移 量 ， 如 下 所 示 : 


logs/hbase-${USER}-1-regionserver -${HOSTNAME}. log 


与 此 同时 ， 用 户 需 要 确定 这 些 端口 没有 被 其 他 进程 占用 ， 否 则 用 
户 可 能 会 遇 到 java.net.BindException: Address already 
in use 异常 。 


局 动 多 个 region 服 务 器 可 以 通过 添加 多 个 偏 移 量 来 完成 : 


$ ./bin/local-regionservers.sh start 1 2 3 


一 一 用 户 不 必 使 用 1 作为 第 一 个 端口 的 偏 移 量 。 因 这 个 
偏 移 量 只 是 被 简单 地 加 到 了 默认 端口 号 上 ， 所 以 用 户 可 以 随 
意 指定 自己 想 要 的 偏 移 量 。 


通过 把 start 换 成 stop 来 停止 一 个 额外 的 region ARA ax A] LME 
用 如 下 命令 : 


$ ./bin/local-regionservers.sh stop 1 


这 条 命令 会 停止 使 用 以 1 为 偏 移 量 的 region 服 务 器 。 它 的 端口 为 
60201 和 60301。 如果 用 户 之 前 用 1 作为 偏 移 量 启动 过 region 服 务 絮 ， 那 
么 它 会 被 关闭 。 


2. 完全 分 布 式 集群 


在 运行 一 个 HBase 集 群 时 ， 典 型 的 操作 融 是 癌 现 有 集群 添加 新 的 
服务 右 ， 且 通常 添加 region 服务 器 ， 因 为 它们 承担 了 集群 的 大 部 分 负 
载 。 对 master 用 户 来 说 ， 其 可 以 局 动 一 个 可 选 的 备份 实例 。 


添加 一 个 备份 master。 用 户 通 过 添加 备份 master 可 以 避免 因 master 
出 现 故障 而 造成 HBase 单 点 失效 ， 这 是 一 种 典型 做 法 ， 备 份 master 记 点 
通常 在 不 同 的 服务 器 上 启动， 所 以 在 最 坏 的 情况 下 ， 当 前 master 失 效 
后 ， 系 统 可 以 切换 到 备份 master 上 。 


masterj 进 程 使 用 ZooKeeper 来 协商 哪 一 个 是 当前 活动 的 进程 ; 
ZooKeeper 中 有 一 个 所 有 master 进 程 都 会 竞争 的 专用 znode， 第 一 个 竞 
争 到 的 master 会 创建 这 个 znode， 也 意味 着 它 在 竞争 中 胜出 。 这 个 过 程 


发 生 在 集群 启动 时 ， 竞 争 获 胜 的 master 会 成 为 当前 提供 服务 的 master 。 
其 他 的 master 进 程 只 是 轮 询 检 查 这 个 znode， 当 它 消失 时 再 次 竞争 。 


/hbase/master znode 是 临时 znode， 同 样 类 型 的 znode 也 被 region Ak 
务 咒 用 于 报告 它们 的 存在 状态 。 当 master 创 建 znode 失 败 时 ， 
ZooKeeper 会 注意 到 会 话 过 期 并 删除 这 个 znode， 以 及 触发 新 master 的 


在 多 台 机 器 上 局 动 服务 时 ， 要 求 其 HBase 配 置 应 与 集群 其 他 服务 
器 一 致 (参见 2.6 节 介绍 的 详细 信息 ) o 通常 master 服 务 器 的 配置 与 集 
群 的 其 他 机 器 相同 ， 一 旦 用 户 确认 配置 没有 问题 ,用户 可 以 使 用 以 下 
命令 在 用 户 指定 的 服务 器 上 局 动 一 个 备份 master: 


$ ./bin/hbase-daemon.sh start master 


假设 用 户 已 经 有 master 正 在 运行 了 ， 这 条 命令 就 会 局 动 一 个 新 的 
master 进 程 等 待 ZooKeeper 中 的 znode 被 移 除 9 。 如 果 用 户 想 让 这 个 过 
程 更 自动 化 一 些 ， 并 指定 一 个 专门 的 服务 器 来 运行 当前 的 master， 那 
么 所 有 其 他 的 master 都 将 被 认为 是 备份 master， 用 户 可 以 使 用 - - 
backup 参数 : 


$ ./bin/hbase-daemon.sh start master --backup 


这 会 让 新 启动 的 master 等 每 一 个 专用 的 master， 即 使 用 start- 
HBase.sh 脚本 启动 的 ， 或 不 加 --backup 参 数 启 动 的 master 在 ZooKeeper 
中 创建 /hbase/master 这 个 znode。 一 旦 创建 完成 ， 新 启动 的 备份 master 


束 会 进入 轮 询 选 举 阶段 。 因 为 现在 已 经 有 master 在 运行 了 ， 它 们 会 如 
之 前 解释 的 那样 进入 空闲 模式 。 


ce 
一 如 果 用 户 启动 了 不 只 一 个 master， 同 时 用 户 经 历 过 
故障 恢复 ， 那 么 束 不 太 容易 知道 现在 正在 对 外 提供 服务 的 
master 是 哪 一 个 了 人 。 所 以 也 不 知道 对 应 的 Web UI 在 哪 台 服务 
厂 上 。 用 户 需 要 使 用 http:/hostname:60010 在 所 有 可 能 的 
master 服务 器 上 尝试 查找 当前 提供 服务 的 master 2 。 


从 HBase 0.90.x 开 始 ， 用 户 也 可 以 在 conf 目录 下 添加 backup- 
masters 文件 来 指定 备份 服务 器 。 这 个 文件 与 regionservers 文件 相似 ， 
其 中 按 行列 出 了 需要 启动 备份 master 的 服务 器 的 主机 各 。 人 参考 2.6.6 
节 ， 我 们 可 以 假设 有 3 个 备份 master 运 行 在 ZooKeeper 所 在 的 服务 器 
。 在 这 种 情况 下 ， 配 置 文 件 conf/backup-masters 中 的 内 容 大 致 如 


zk1.foo.com 
zk2.f00.com 


zk3.f00.com 


在 一 个 规模 较 小 的 集群 中 将 这 些 master 进 程 配 置 到 ZooKeeper 运 行 
的 服务 器 上 是 很 好 的 选择 ， 因 为 master 被 设计 为 集群 运行 时 的 协调 
者 ， 所 以 不 需要 太 多 资源 。 


eh, 
一 人 用 户 可 以 启动 足够 的 备份 master 来 达到 自己 要 求 的 
处 理 失效 的 标准 。 启 动 得 太 多 并 没有 什么 坏处 ， 不 过 启动 得 
太 少 则 可 能 为 当前 系统 留 下 隐患。 不 过 用 户 也 可 以 采用 一 些 
监控 手段 来 报告 master 节 点 失效 。 你 可 以 尝试 修复 节点 并 重 
新 将 它 添加 到 集群 中 。 总 之 ， 启 动 两 到 三 个 备份 节点 比较 合 


JE o 


YER, backup-masters 中 的 和 点 会 使 用 - -backup 选项 来 启动 备 
份 master 进 程 。 并 且 在 start-hbase.sh 脚本 启动 主 master 和 region 服 务 屁 
之 后 ， 和 钾 份 master 才 会 启动 。 此外， 用 户 也 可 以 运行 hbase-backup.sh 
脚本 来 初始 化 启动 备份 服务 器 。 


添加 region 服 务 器 。 添 加 一 个 新 的 region 服 务 器 是 运行 集群 时 的 常 
用 操作 。 首 先 ， 用 户 需 要 修改 conf 目录 下 的 regionservers 文件 ， 这 样 
可 以 使 启动 脚本 能 够 添加 新 服务 器 。 O 简单 地 在 文件 中 添加 一 行 ， 内 
容 为 对 应 服务 器 的 主机 名 即 可 。 


用 户 修改 配置 文件 之 后 ， 还 需要 将 其 复制 到 集群 中 所 有 的 机 器 
同时 ， 用 户 需 要 保证 新 添加 的 机 絮 上 已 经 安装 了 HBase， 且 配置 

之 后 用 户 拥有 多 种 方式 来 启动 新 的 region 服务 器 进程 。 一 种 是 通 
过 在 master 机 器 上 运行 start-hbase.sh 脚本 ， 它 会 跳 过 所 有 已 经 启动 
region 服 务 器 的 服务 。 由 于 新 添加 的 节点 中 没有 region 服 务 右 进程 ， 它 
将 正常 启动 region 服 务 絮 守护 进程 。 


另 一 种 方法 是 ， 使 用 局 动 脚本 直接 在 新 节点 上 局 动 ， 具 体操 作 如 


$ ./bin/hbase-daemon.sh start regionserver 


wa, 
BA 
a = + 
a a 
| 和 bb 


”以 上 操作 必须 在 用 户 要 添加 新 的 region 服 务 器 进程 
AT FALE AAA 
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ZooKeeper 中 创建 对 应 的 znode 来 进行 注册 ， 然 后 它 会 加 入 集群 ， 以 及 
被 分 配 region。 


12.2 ”数据 任务 

当 用 户 使 用 HBase 集 群 时 ， 将 会 处 理 遍布 在 一 张 或 多 张 表 中 的 大 
量 数据 。 有 时 为 了 备份 数据 而 需要 移动 全 部 或 部 分 数据 到 归档 数据 
中 。 以 下 是 几 种 完成 这 项 任务 所 需 的 方法 。 


12.2.1 导入 /导出 


HBase 发 布 了 一 些 有 用 的 工具 ， 其 中 两 个 是 支持 导入 和 导出 的 
MapReduce 人 作业。 它们 可 以 将 部 分 或 全 部 的 表 写 入 到 HDFS 文 件 中 ， 且 
随后 可 以 再 载 入 它们 。 这 些 工 具 包 含 在 HBase 的 JAR 文 件 中 ， 用 户 可 以 
通过 hadoop jar 命令 来 获得 这 些 工 具 的 列表 。 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar 


An example program must be given as the first argument. 
Valid program names are: 
CellCounter: Count cells in HBase table 
completebulkload: Complete a bulk data load. 
copytable: Export a table from local cluster to peer cluster 


export: Write table data to HDFS. 

import: Import data written by Export. 

importtsv: Import data in TSV format. 

rowcounter: Count rows in HBase table 

verifyrep: Compare the data from tables in two different 
clusters. 

WARNING: It doesn't work for incrementColumnValues'd cells 
since the 
timestamp is changed after being appended to the log. 


在 命令 后 面 添加 export 参数 名 就 可 以 显示 该 命令 的 用 法 : 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar export 


ERROR: Wrong number of arguments: 0 

Usage: Export [-D < property=value>]* < tablename> < outputdir> \ 
[< versions> [< starttime> [< endtime>]] \ 
[A4[regex pattern] or [Prefix] to filter] ] 


Note: -D properties will be applied to the conf used. 
For example: 
-D mapred.output.compress=true 
-D 
mapred.output.compression.codec=org.apache.hadoop.io.compress. 
GzipCodec 
-D mapred.output .compression. type=BLOCK 
Additionally, the following SCAN properties can be specified 
to control/limit what is exported.. 
-D hbase.mapreduce.scan.column. family=< familyName> 


用 户 可 以 看 到 该 命令 提供 了 多 种 选项 。 其 中 只 有 tablename 和 
outputdir 两 个 参数 是 必需 的 。 其 他 参数 都 是 可 选 参数 。 表 12-1 9 
列 出 了 所 有 可 用 的 选项 。 


表 12-1 导出 工具 的 参数 


日 存 放 在 HDFS 中 的 路 径 
每 列 备份 的 版 本 数量 ， 黑 认 值 为 1 


ee AITAI, dE BRL RAF BA 
J 的 setTimeRange() 方法 的 六 信 局 
= UO ROHR 


.| 当 以 “ 心 开 始 时 ， 该 选项 被 当做 正则 表达 式 来 匹配 行 键 ， 和 否则 会 被 
regexp/prefix ee 前 级 


WA 


4, 
一 全 regexp A TRE All 
RegexStringComparator ， 这 两 部 分 均 在 4.1.2 节 的 “ 行 
过 滤器 (RowFilter ) ”中 做 了 介绍 ， 而 prefix 则 使 用 了 
4.1.3 记 的 “前 绥 过 滤器 (PrefixFilter ) ”所 讨论 的 
PrefixFilter 。 


用 广 必 须 从 元 到 右 指 定 参数 ， 不 能 各 略 在 这 之 间 的 任何 一 个 参 
Bo PAG, MRA RE PT BE iam, FA i ti EMR AR LA 
开始 和 结束 时 间 。 如 果 不 需 要 这 些 参数 ， 用 户 只 需要 将 它们 设 定 为 它 
们 的 最 小 值 和 最 大 值 ， 例 如 ， 将 开始 时 间 设 为 0， 而 将 结束 时 间 设 为 


9223372036854775807 (由 于 时 间 是 一 个 长 整 型 数 ) 。 这 样 会 保 
证 时 间 范 围 不 会 被 考虑 在 内 。 


Wa 


一 尽管 用 户 提供 了 HBase JAR 文 件 ， 用 户 还 需要 几 个 
额外 的 依赖 来 保证 能 够 顺利 执行 MapReduce 作 业 。 它 需要 以 
下 几 个 JAR 文 件 : zookeeper-xyz.jar ` guava-xyz.jar 和 google- 
collections-xyz.jar 。 用 户 必须 确保 MapReduce 作 业 可 以 访问 
到 这 些 文件 。 其 中 一 个 方法 是 将 它们 添加 到 
$HADOOP_HOME/ conf/hadoop-env.sh 的 
HADOOP_CLASSPATH 变量 中 。 


执行 以 下 命令 就 会 启动 MapReduce 作 业 ， 并 且 打 印 出 进度 : 


$ hadoop jar $HBASE_HOME/HBase-0.91.0-SNAPSHOT.jar export \ 
testtable /user/larsgeorge/backup-testtable 


11/06/25 15:58:29 INFO mapred.JobClient: Running job: 
job_201106251558_ 0001 

11/06/25 15:58:30 INFO mapred.JobClient: map 0% reduce 0% 
11/06/25 15:58:52 INFO mapred.JobClient: map 6% reduce 0% 
11/06/25 15:58:55 INFO mapred.JobClient: map 9% reduce 0% 
11/06/25 15:58:58 INFO mapred.JobClient: map 15% reduce 0% 
11/06/25 15:59:01 INFO mapred.JobClient: map 21% reduce 0% 
11/06/25 15:59:04 INFO mapred.JobClient: map 28% reduce 0% 
11/06/25 15:59:07 INFO mapred.JobClient: map 34% reduce 0% 
11/06/25 15:59:10 INFO mapred.JobClient: map 40% reduce 0% 
11/06/25 15:59:13 INFO mapred.JobClient: map 46% reduce 0% 
11/06/25 15:59:16 INFO mapred.JobClient: map 53% reduce 0% 
11/06/25 15:59:19 INFO mapred.JobClient: map 59% reduce 0% 
11/06/25 15:59:22 INFO mapred.JobClient: map 65% reduce 0% 


11/06/25 15:59:25 INFO mapred.JobClient: map 71% reduce 0% 
11/06/25 15:59:28 INFO mapred.JobClient: map 78% reduce 0% 
11/06/25 15:59:31 INFO mapred.JobClient: map 84% reduce 0% 
11/06/25 15:59:34 INFO mapred.JobClient: map 90% reduce 0% 
11/06/25 15:59:37 INFO mapred.JobClient: map 96% reduce 0% 
11/06/25 15:59:40 INFO mapred.JobClient: map 100% reduce 0% 
11/06/25 15:59:42 INFO mapred.JobClient: Job complete: 
job_201106251558_ 0001 

11/06/25 15:59:42 INFO mapred.JobClient: Counters: 6 
11/06/25 15:59:42 INFO mapred.JobClient: Job Counters 
11/06/25 15:59:42 INFO mapred.JobClient: Rack-local map 
tasks=32 

11/06/25 15:59:42 INFO mapred.JobClient: Launched map tasks=32 
11/06/25 15:59:42 INFO mapred.JobClient: FileSystemCounters 
11/06/25 15:59:42 INFO mapred.JobClient: 


HDFS_BYTES_WRITTEN=3648 


11/06/25 15:59:42 INFO mapred.JobClient: Map-Reduce Framework 
11/06/25 15:59:42 INFO mapred.JobClient: Map input records=0 
11/06/25 15:59:42 INFO mapred.JobClient: Spilled Records=0 
11/06/25 15:59:42 INFO mapred.JobClient: Map output records=0 


一 旦 作业 结束 ， 可 以 检查 文件 系统 中 的 导出 数据 。 以 下 使 用 了 
hadoop dfs 命令 (每 一 行 都 缩减 了 部 分 内 容 以 保持 水 平 页 面 宽度 ) : 


$ hadoop dfs -lsr /user/larsgeorge/backup-testtable 


drwxr-xr-x - © 2011-06-25 15:58 _logs 

-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00000 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00001 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00002 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00003 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00004 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00005 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00006 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00007 
-rw-r--r-- 1 114 2011-06-25 15:58 part-m-00008 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00009 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00010 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00011 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00012 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00013 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00014 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00015 
-rw-r--r-- 1 114 2011-06-25 15:59 part-m-00016 


-rw-r--r-- 1. 114 2011-06-25 15:59 part-m-00017 
-rw-r--r-- 1. 114 2011-06-25 15:59 part-m-00018 
-rw-r--r-- 1. 114 2011-06-25 15:59 part-m-00019 
-rw-r--r-- Ls 114 2011-06-25 15:59 part-m-00020 
-rw-r--r-- 1. 114 2011-06-25 15:59 part-m-00021 
-rw-r--r-- ae 114 2011-06-25 15:59 part-m-00022 
-rw-r--r-- Ls. 114 2011-06-25 15:59 part-m-00023 
-rw-r--r-- Tia 114 2011-06-25 15:59 part-m-00024 
-rw-r--r-- Toi: 114 2011-06-25 15:59 part-m-00025 
-rw-r--r-- Hy 114 2011-06-25 15:59 part-m-00026 
-rw-r--r-- T 114 2011-06-25 15:59 part-m-00027 
-rw-r--r-- al es 114 2011-06-25 15:59 part-m-00028 
-rw-r--r-- Ls 114 2011-06-25 15:59 part-m-00029 
-rw-r--r-- a 114 2011-06-25 15:59 part-m-00030 
-rw-r--r-- 1. 114 2011-06-25 15:59 part-m-00031 


一 部 分 数据 ， 将 这 些 文件 合 
并 到 一 起 束 会 形成 整 张 表 的 备份 。 现 在 可 以 使 用 hadoop distcp 命令 将 
这 个 文件 夹 复 制 到 男 一 个 集群 ， 并 在 那儿 进行 导入 操作 。 


用 户 也 可 以 使 用 可 选 参数 实现 增 量 备份 : 将 开始 时 间 设 置 为 上 一 
"作业 仍然 会 扫 摘 全 表 ， 但 是 只 导出 从 上 次 备份 之 后 修 
p BYA 


只 导出 一 列 值 的 最 新 版 本 在 大 多 数 场景 下 是 可 以 接受 的 ， 但 是 如 
果 需 要 整 张 表 的 备份 ， 就 需要 将 versions 设置 为 2147483647 ， 这 
意味 着 备份 所 有 的 版 本 。 


导入 数据 是 反 加 操作， 我 们 利和 爷 可 以 运行 不 市 参数 的 合 命令 并 获得 
详细 使 用 说 明 ， 然 后 可 以 使 用 tablename 和 inputdir 这 


每 一 个 part-m-nnnnn 文件 都 包含 导 


来 启动 作业 ，inputdir 指 包含 导出 文件 的 文件 夹 。 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar import 


ERROR: Wrong number of arguments: 0 
Usage: Import < tablename> < inputdir> 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar import \ 


testtable /user/larsgeorge/backup-testtable 


11/06/25 17:09:48 INFO mapreduce.TableOutputFormat: Created table 
instance \ 

for testtable 
11/06/25 17:09:48 INFO input.FileInputFormat: Total input paths to 
process : 32 
11/06/25 17:09:49 INFO mapred.JobClient: Running job: 
job_201106251558 0003 
11/06/25 17:09:50 INFO mapred.JobClient: map 0% reduce 0% 
11/06/25 17:10:04 INFO mapred.JobClient: map 6% reduce 0% 
11/06/25 17:10:07 INFO mapred.JobClient: map 12% reduce 0% 
11/06/25 17:10:10 INFO mapred.JobClient: map 18% reduce 0% 
11/06/25 17:10:13 INFO mapred.JobClient: map 25% reduce 0% 
11/06/25 17:10:16 INFO mapred.JobClient: map 31% reduce 0% 
11/06/25 17:10:19 INFO mapred.JobClient: map 37% reduce 0% 
11/06/25 17:10:22 INFO mapred.JobClient: map 43% reduce 0% 
11/06/25 17:10:25 INFO mapred.JobClient: map 50% reduce 0% 
11/06/25 17:10:28 INFO mapred.JobClient: map 56% reduce 0% 
11/06/25 17:10:31 INFO mapred.JobClient: map 62% reduce 0% 
11/06/25 17:10:34 INFO mapred.JobClient: map 68% reduce 0% 
11/06/25 17:10:37 INFO mapred.JobClient: map 75% reduce 0% 
11/06/25 17:10:40 INFO mapred.JobClient: map 81% reduce 0% 
11/06/25 17:10:43 INFO mapred.JobClient: map 87% reduce 0% 
11/06/25 17:10:46 INFO mapred.JobClient: map 93% reduce 0% 
11/06/25 17:10:49 INFO mapred.JobClient: map 100% reduce 0% 
11/06/25 17:10:51 INFO mapred.JobClient: Job complete: 
job_201106251558 0003 
11/06/25 17:10:51 INFO mapred.JobClient: Counters: 6 
11/06/25 17:10:51 INFO mapred.JobClient: Job Counters 


11/06/25 17:10:51 INFO mapred.JobClient: Launched map tasks=32 
11/06/25 17:10:51 INFO mapred.JobClient: Data-local map 
tasks=32 

11/06/25 17:10:51 INFO mapred.JobClient: FileSystemCounters 
11/06/25 17:10:51 INFO mapred.JobClient: HDFS_BYTES_READ=3648 
11/06/25 17:10:51 INFO mapred.JobClient: Map-Reduce Framework 
11/06/25 17:10:51 INFO mapred.JobClient: Map input records=0 
11/06/25 17:10:51 INFO mapred.JobClient: Spilled Records=0 


11/06/25 17:10:51 INFO mapred.JobClient: Map output records=0 


一 人 用 户 可 以 使 用 导入 作业 将 数据 存储 到 一 个 不 同 的 
表 中 ， 只 要 这 张 表 使 用 的 是 相同 的 模式 ， 就 可 以 在 命令 行 中 
指定 任意 一 个 不 同 的 表 名 。 


MapReduce 作 业 读 取 导 出 的 文件 数据 ， 并 将 其 存储 到 指定 的 表 
中 。 最 后 ， 导 出 /导入 工具 的 组 合十 每 张 表 的 组 合 。 如 琳 用 户 拥 有 多 张 
表 ， 用 户 需 要 分 开 执 行 每 张 表 的 作业 。 


使 用 DistCp 


用 户 必 须 使 用 HBase 提 供 的 工具 才能 操作 一 张 表 。 用 
户 似乎 也 可 以 使 用 hadoop distcp 命令 复制 HDFS 上 的 整 
个 /hbase 目 孙 以 备份 数据 。 但 是 我 们 不 推荐 使 用 这 种 方 
法 ， 因 为 这 个 操作 在 复制 文件 的 过 程 中 会 忽略 文件 的 状 
S: 用 户 可 能 在 memstore 的 刷 写 操 作 过 程 中 复制 数据 ， 这 
样 会 导致 数据 中 混杂 看 新 旧 多 种 文件 。 


这 个 操作 也 会 导致 用 户 忽略 在 内 存 中 还 没有 被 刷 写 的 
数据 。 低 层次 的 复制 操作 只 操作 那些 已 经 持久 化 的 数据 。 
一 种 解决 办 法 是 蔡 止 对 这 张 表 的 写 操作 ， 明 确 地 刷 写 这 张 
表 的 内 存 ， 然 后 再 复制 HDFS 文 件 。 


即使 使 用 这 种 方法 ， 用 户 仍 需要 仔细 监测 刷 写 操作 执 
行 到 的 位 置 ， 这 里 可 能 会 出 现 问 题 ， 用 户 需 要 特别 注意 。 


12.2.2 CopyTable 工 具 


男 一 个 工具 是 CopyTable， 这 个 工具 主要 被 用 来 引导 集群 的 复制 。 
用 户 可 以 使 用 该 工具 将 一 张 已 经 存在 的 表 从 主 集 群 复制 到 从 集群 。 下 
面 是 该 工具 的 命令 行 选项 : 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar copytable 


Usage: CopyTable [--rs.class=CLASS] [--rs.impl=IMPL] [-- 
starttime=xX ] 
[--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] < tablename> 


Options: 
rs.class hbase. regionserver.class of the peer cluster 
specify if different from current cluster 

rs.impl hbase.regionserver.impl of the peer cluster 
starttime beginning of the time range 

without endtime means from starttime to forever 
endtime end of the time range 
new.name new table's name 
peer ,adr Address of the peer cluster given in the format 


hbase. zookeeer .quorum: hbase. zookeeper.client.port:zookeeper.znode. 
parent 
families comma-seperated list of families to copy 


Args: 
tablename Name of the table to copy 


Examples: 
To copy 'TestTable' to a cluster that uses replication for a 1 


hour window: 
$ bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable \ 


rs.class=org.apache.hadoop.hbase.ipc.ReplicationRegionInterface 
--rs.impl=org.apache.hadoop.hbase.regionserver.replication. 
Replicat ionRegionServer 
--Starttime=1265875194289 --endtime=1265878794289 
--peer.adr=serveri1, server2, server3:2181:/hbase TestTable 


在 用 法 输出 信息 的 最 后 有 一 个 例子 ， 用 户 可 以 根据 这 个 ` ais 
置 目 己 的 复制 过 程 。 用 法 输出 信息 也 包含 参数 说 明 ， 你 可 能 已 经 注意 
到 了 开始 和 结束 时 间 选 项 ， 用 户 可 以 参照 上 文 提 到 的 导出 / 导 叉 工具 中 
相同 参数 的 用 法 来 使 用 这 两 个 参数 。 


此 外 ， 用 户 可 以 使 用 families 参数 来 限制 所 需 复制 列 族 的 数 
oe re ee 。 下 面 是 在 同一 个 集群 中 复制 
一 个 示例 : 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT.jar copytable \ 


--new.name=testtable3 testtable 


11/06/26 15:20:07 INFO mapreduce.TableOutputFormat: Created table 
instance for testtable3 

11/06/26 15:20:07 INFO mapred.JobClient: Running job: 
job_201106261454 0003 

11/06/26 15:20:08 INFO mapred.JobClient: map 0% reduce 0% 
11/06/26 15:20:19 INFO mapred.JobClient: map 6% reduce 0% 
11/06/26 15:20:22 INFO mapred.JobClient: map 12% reduce 0% 
11/06/26 15:20:25 INFO mapred.JobClient: map 18% reduce 0% 
11/06/26 15:20:28 INFO mapred.JobClient: map 25% reduce 0% 
11/06/26 15:20:31 INFO mapred.JobClient: map 31% reduce 0% 
11/06/26 15:20:34 INFO mapred.JobClient: map 37% reduce 0% 
11/06/26 15:20:37 INFO mapred.JobClient: map 43% reduce 0% 
11/06/26 15:20:40 INFO mapred.JobClient: map 50% reduce 0% 
11/06/26 15:20:43 INFO mapred.JobClient: map 56% reduce 0% 
11/06/26 15:20:46 INFO mapred.JobClient: map 62% reduce 0% 
11/06/26 15:20:49 INFO mapred.JobClient: map 68% reduce 0% 
11/06/26 15:20:52 INFO mapred.JobClient: map 75% reduce 0% 
11/06/26 15:20:55 INFO mapred.JobClient: map 81% reduce 0% 
11/06/26 15:20:58 INFO mapred.JobClient: map 87% reduce 0% 
11/06/26 15:21:01 INFO mapred.JobClient: map 93% reduce 0% 
11/06/26 15:21:04 INFO mapred.JobClient: map 100% reduce 0% 
11/06/26 15:21:06 INFO mapred.JobClient: Job complete: 
job_201106261454 0003 

11/06/26 15:21:06 INFO mapred.JobClient: Counters: 5 
11/06/26 15:21:06 INFO mapred.JobClient: Job Counters 


11/06/26 15:21:06 INFO mapred.JobClient: Launched map tasks=32 
11/06/26 15:21:06 INFO mapred.JobClient: Data-local map 
tasks=32 


11/06/26 15:21:06 INFO mapred.JobClient: Map-Reduce Framework 
11/06/26 15:21:06 INFO mapred.JobClient: Map input records=0 


11/06/26 15:21:06 INFO mapred.JobClient: Spilled Records=0 
11/06/26 15:21:06 INFO mapred.JobClient: Map output records=0 


复制 过 程 还 需要 保证 目标 表 已 经 存在 : 可 以 使 用 Shell 来 获得 原 表 
的 定义 ， 并 且 使 用 这 个 定义 来 创建 目标 表 。 用 户 可 以 省 略 那些 没有 包 
人 台 在 复制 命令 中 的 列 族 。 


示例 使 用 了 一 个 可 选 参数 new.name ， 它 允许 你 指定 一 个 不 同 于 
原始 表 名 的 新 表 名 。 复 制 的 表 会 存储 在 同一 个 集群 中 ， 这 是 由 于 没有 
使 用 peer ,adr 参数 。 


一 一 * 注意 ， 上 述 两 种 工具 只 提供 行 级 别 的 原子 性 。 换 
名 话说， 如 果 用 户 导出 或 复制 的 表 在 操作 过 程 中 被 别 的 客户 
端 修改 过 ， 那 么 用 户 就 无 法 辨别 出 哪些 数据 被 复制 到 了 新 的 
地 方 。 


尤其 古 当 处 理 多 张 表 的 时 候 ， 例 如 ， 存 在 二 级 索引 的 情 
况 ， 用 户 需 要 保证 在 客户 端 已 经 复制 了 一 个 所 有 表 的 一 致 性 
视图 。 一 种 解决 方法 是 使 用 开始 和 结束 时 间 参 数 。 这 样 用 户 
可 以 执行 一 个 只 处 理 最 近 更 新 数据 的 二 次 更 新 作业 。 


12.2.3 ”批量 导入 


HBase 拥 有 多 种 导入 数据 的 方法 。 最 直接 的 方法 有 两 种 ， 一 种 是 
在 MapReduce 作 业 中 使 用 TableoutputFormat 类 〈 见 第 7 章 ) , 5 


一 种 是 使 用 普通 的 客户 端 API。 但 是 ， 这 两 种 方法 并 不 一 定 征 最 有 效 
BEATTIE ° 


另 一 种 高 效 导 入 大 量 数 据 的 方法 是 批量 导入 (bulkimport) ° Ht 
量 导 入 使 用 一 个 MapReduce 作 业 将 表 数 据 输出 为 HBase 内 部 数据 格式 ， 
然后 直接 将 数据 文件 载 入 到 正在 执行 的 集群 中 。 使 用 批量 导入 特性 比 
只 使 用 HBase API 占 用 更 少 的 CPU 和 网 络 资源 。 


一 一 * HBase 载 入 数据 必须 在 极 短 的 时 间 内 执行 完 ， 但 是 
导入 的 数据 可 能 会 非常 大 。 这 会 给 集群 带 来 额外 的 负载 ， 而 
且 有 可 能 会 使 集群 过 载 。 批 量 导入 就 是 一 种 通过 避免 region 
服务 器 扰动 来 解决 这 个 问题 的 方法 。 


1. 批量 导入 过 程 
HBase 批 量 导 入 过 程 包含 两 个 步 又: 
准备 数据 


批量 导入 的 第 一 步 是 利用 一 个 使 用 HFile0utputFormat 的 
MapReduce 作 业 来 生成 HBase 数 据 文 件 。HFileoutputFormat 会 直 
ae 内 部 存储 格式 ， 这 样 它们 可 以 被 高 效 地 载 入 到 


AN 


为 了 高 效 运行 此 功能 ， 必 须 配 置 HFileoutputFormat 使 得 它 输 
出 的 HFile 能 够 适合 单一 的 region: 所 有 输出 需要 被 载 入 到 HBase 的 作 
业 都 会 使 用 Hadoop 的 TotalorderPartitioner 类 来 进行 分 区 ， 该 
类 会 将 map 输 出 的 数据 划分 到 键 空间 不 相交 的 区 间 中 ， 这 些 区 间 与 表 
HJregion yt Fa] FAX by ° 


HFileOutputFormat 包含 一 个 简便 的 函数 
configureIncrementalLoad() ， 这 个 方法 会 基于 当前 表 的 region 
的 边界 自动 配置 TotalorderPartitioner ° 


载 入 数据 


在 使 用 HFileoutputFormat 准备 好 数据 之 后 ， 我 们 可 以 使 用 
completebulkload 工具 将 数据 载 入 到 集群 中 。 它 会 遍历 一 遍 准 备 
好 的 数据 ， 决 定 每 一 个 文件 属于 哪个 region。 然 后 与 接收 这 些 HFile 文 
件 的 region 服 务 器 进行 交互 ， 移 动 文 件 到 其 存储 目录 ， 最 后 使 得 客户 
端 可 以 使 用 这 些 数据 。 


如 果 region 的 边界 在 批量 导入 或 准备 数据 和 完成 之 间 的 过 程 中 有 
改动 ，completebulkload 工具 会 自动 地 根据 新 的 边界 将 这 些 数据 
文件 进行 拆 分 。 这 一 步 并 不 是 最 高 效 的 ， 用 户 需 要 减少 准备 数据 和 载 
Aes 特别 是 当 还 有 其 他 客户 端 在 同时 使 用 其 他 方法 导 

数据 时 。 


这 个 原理 利用 了 服务 器 上 已 经 存在 的 合并 读 取 (merge read) 方 
式 来 扫描 memstore， 以 及 硬盘 上 (更 确切 地 说 是 文件 系统 中 的 ) 的 存 
储 文 件 来 获取 整 行 的 KeyValue 。 将 新 生成 的 批量 导入 的 文件 添加 进 
来 并 加 以 处 理 ， 这 与 内 存 文件 刷 写 会 生成 新 的 存储 文件 的 过 程 相似 。 

更 重要 的 是 ， 所 有 文件 都 是 按照 其 对 应 的 KeyValue 实例 所 拥有 
的 时 间 惟 来 排序 的 〈 见 8.4T) 。 换 句 话说 ， 用 户 可 以 批量 导入 新 旧 的 
版 本 的 列 值 ， 而 region 服 务 器 会 将 这 些 文件 恰当 地 进行 排序 。 最 终 的 
结 末 是 ， 用 户 即刻 获得 了 所 存储 的 行 的 一 致 并 连贯 的 视图 。 


2. 使 用 importtsv 工具 准备 数据 


HBase 发 行 了 一 个 命令 行 工具 importtsv ， 这 个 工具 可 以 使 用 制 
表 符 拆 分 数据 (简称 TSV) 格式 的 文件 执行 批量 导入 。 该 工具 默认 使 
用 HBase 的 put( ) API 一 行 一 行 地 回 HBase 插 入 数据 。 


用 户 也 可 以 使 用 importtsv.bulk.output 选项 ， 这 样 
importtsv 工具 会 使 用 HFileoutputFormat 来 生成 文件 。 然 后 这 
些 文件 可 以 被 批量 载 入 到 HBase 中 去 。 用 户 可 以 无 参数 地 运行 这 个 工 
具 来 打印 出 简短 的 用 法 信息 : 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar importtsv 


Usage: importtsv -Dimporttsv.columns=a,b,c < tablename> < 
inputdir> 


Imports the given input directory of TSV data into the specified 
table. 


The column names of the TSV data must be specified using the - 
Dimporttsv. columns 

option. This option takes the form of comma-separated column 
names,where each 

column name is either a simple column family,or a 
columnfamily:qualifier. The 

special column name HBASE_ROW_KEY is used to designate that this 
column should 

be used as the row key for each imported record. You must specify 
exactly one 

column to be the row key,and you must specify a column name for 
every column 

that exists in the input data. 


By default importtsv will load data directly into HBase. To 
instead generate 
HFiles of data to prepare for a bulk data load,pass the option: 
-Dimporttsv.bulk.output=/path/for/output 
Note: if you do not use this option,then the target table must 
already 
exist in HBase 


Other options that may be specified with -D include: 

-Dimporttsv.skip.bad.lines=false - fail if encountering an 
invalid line 

'-Dimporttsv.separator=|' - eg separate on pipes instead of tabs 

-Dimporttsv.timestamp=currentTimeAsLong - use the specified 
timestamp for the import 

-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to 
use instead\ 

of org.apache.hadoop.hbase.mapreduce. TsviImporterMapper 


以 上 使 用 信息 解释 得 非常 详尽 ， 所 以 只 需要 简单 地 运行 这 个 工具 
并 指定 要 求 的 选项 即 可 。 它 会 启动 一 个 从 HDFS 中 读 取 数据 的 作业 ， 
并 准备 好 批量 导入 所 需 的 存储 文件 。 


3. 完全 批量 载 入 工具 


无 论 是 使 用 带 importtsv.bulk,.output 选项 的 Importtsyv I 
具 ， 还 是 其 他 使 用 HFileOutputFormat 的 MapReduce 作 业 的 工具 ， 
它们 都 需要 使 用 completebulkload 工具 将 数据 导入 到 正在 运行 的 
集群 中 。 


而 completebulkload 工具 只 需要 用 户 提供 importtsyv 的 输出 
路 径 或 MapReduce 作 业 的 输出 路 径 ， 同 时 还 需要 导入 的 表 名 。 例 如 : 


$ hadoop jar $HBASE_HOME/hbase-0.91.0-SNAPSHOT. jar 
completebulkload \ 


-conf ~/my-hbase-site.xml /user/larsgeorge/myoutput mytable 


如 果 配 置 文件 没有 包含 在 CLASSPATH 中 ， 用 户 可 以 使 用 可 选 - 
conf o file 参数 来 指定 一 个 包含 合适 的 HBase 参 数 的 文件 。 
此 外 ， 当 不 通过 HBase 管 理 ZooKeeper 时 ，CLASSPAT H 必须 包含 拥有 
ZooKeeper 配 置 文件 的 文件 夹 。 


”如 果 HBase 不 包含 日 标 表 ， 该 工具 会 自动 为 用 户 创 
建 一 个 。 


completebulkload 工具 执行 得 非常 快 ， 这 之 后 集群 束 可 以 看 
到 这 些 新 数据 了 。 


4. 高 级 用 法 


虽然 Importtsyv 在 很 多 情况 下 都 非常 有 用 ， 但 是 高 级 用 户 可 能 
会 布 望 目 己 编写 程序 来 生成 数据 ， 或 者 导入 其 他 格式 的 数据 。 为 了 实 


现 这 些 ， 用 户 需要 仔细 阅读 ImportTsv, java 类 ， 并 查看 
HFileOutputFormat 的 JavaDoc ° 


导入 过 程 中 的 批量 载 入 也 可 以 使 用 用 户 所 写 的 代码 : 查看 
LoadIncrementalHFiles 类 来 获取 更 多 的 信息 。 


12.2.4 复制 


HBase 复 制 功能 的 染 构 已 经 在 8.8 节 详细 讨论 过 了 。 下 面 我 们 来 看 
一 下 如 何在 两 个 集群 之 间 开 局 表 的 复制 功能 。 


首先 ， 修 改 conf 文件 夹 中 的 hbase-site.xml 配置 文件 以 为 整个 集群 
打开 该 功能 。 


< configuration> 
< property> 
< name>hbase.zookeeper.quorum< /name> 
< value>zk1.foo.com,Zzk2.foo.com,zk3.foo.com< /value> 
< /property> 
< property> 
< name>hbase.rootdir< /name> 
< value>hdfs://master.foo.com:8020/hbase< /value> 
< /property> 
< property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 
< /property> 
< property> 


< name>hbase.replication< /name> 
< value>true< /value> 


< /property> 


< /configuration> 


这 个 示例 增加 了 一 个 新 的 属性 hbase .replication ， 当 该 属性 
设 为 true 上 时， 复制 支持 就 会 启用 。 它 只 打开 了 所 必需 的 底层 功能 。 


换 句 话说 ， 用 户 不 会 在 集群 上 看 到 任何 设置 和 功能 上 的 区 别 。 用 户 还 
需要 复制 修改 过 的 配置 文件 到 集群 上 所 有 的 机 器 ,并且 重 局 所 有 服务 
any ° 


现在 ， 用 户 可 以 修改 已 存在 的 表 了 (用 户 需 要 先 将 该 表 禁 用 ) ， 
或 者 创建 一 个 复制 范围 (replication scope) 被 设置 为 1 的 表 (也 可 以 
查看 5.1.3 市 中 该 属性 的 值 范 围 ) : 


hbase(main):001:0> create 'testtable1', 'colfam1' 


hbase(main):002:0> disable 'testtable1' 


hbase(main):003:0> alter 'testtable1',NAME => 'colfam1i',\ 


REPLICATION_SCOPE => '1' 


hbase(main):004:0> enable 'testtable1' 


hbase(main):005:0> create 'testtable2',{ NAME => 'colfam1',\ 


REPLICATION _SCOPE => 1} 


设置 好 范围 ， 为 主 集群 作为 复制 源 做 好 准备 。 现 在 ， 添 加 从 (也 
叫 对 等 ) 集群 ， 并 启动 复制 : 


hbase(main):006:0> add_peer '1', 'slave-zk1:2181:/hbase' 


hbase(main):007:0> start_replication 


第 一 条 命令 是 为 从 集群 设置 ZooKeeper 集 群 信息 ， 这 样 使 得 修改 可 
以 被 同步 到 从 集群 上 。 第 二 条 命令 真正 地 将 修改 过 的 记录 发 布 到 从 集 
群 上 。 为 了 使 工作 能 够 按照 预期 进行 ， 用 户 必 须 保证 已 经 在 从 集群 上 
创建 了 一 个 相同 的 表 的 副本 : 表 可 以 是 空 的 ， 但 是 必须 有 相同 的 表 的 
模式 和 表 名 。 


Fi 
一 一 用 户 可 以 使 用 运行 两 个 本 地 集群 的 方法 (这 部 分 
内 容 在 12.3.1 节 进行 了 详细 描述 ) 来 进行 开发 和 原型 设计 ， 
并 将 第 二 个 本 地 集群 配置 为 从 集群 的 地 址 。 


hbase(main):006:0> add_peer '1', 'localhost:2181:/hbase-2' 


需要 修改 第 二 个 集群 的 conf 2 目录 文件 夹 下 hbase- 
site.xml 中 的 一 个 参数 : 


< property> 
< name>hbase.replication< /name> 


< value>true< /value> 
< /property> 


增加 这 个 属性 可 以 使 该 集群 作为 从 集群 。 


由 于 复制 功能 已 经 局 用 ， 用 户 可 以 在 主 集 群 上 增加 数据 ， 然 后 过 
一 会 ， 用 户 束 能 够 在 从 集群 上 相同 名 子 的 表 中 看 到 这 些 数据 。 


从 集群 已 经 不 需要 再 做 进一步 修改 了 。 从 集群 上 的 复制 功能 使 用 
普通 的 客户 端 API 来 执行 局 部 数据 修改 。 移 除 从 集群 并 停止 复制 可 以 
使 用 相反 的 命令 来 完成 : 


hbase(main):008:0> stop_replication 


hbase(main):009:0> remove_peer '1' 


需 


制 ， 但 


注意 一 点 是 ， 俘 止 复制 仍 会 完成 所 有 已 在 队列 里 的 修改 的 复 
之 后 所 有 的 处 理 都 被 停止 了 。 


是 

最 后 ， 当 只 有 几 行 数据 时 ， 用 户 可 以 在 Shell 中 查看 并 简单 验证 两 
集群 上 复制 的 数据 的 正确 性 ， 但 是 一 个 系统 级 的 比较 需要 消耗 更 多 

的 计算 量 。 ”这 也 是 近 供 kVerify Replication 工 具 的 原因 ， 用 户 可 以 通过 

hadoop jar 命令 调用 verifyrep 来 执行 : 


$ hadoop jar $HBASE_HOME/HBase-0.91.0-SNAPSHOT.jar verifyrep 


Usage: verifyrep [--starttime=X] [--stoptime=Y] [--families=A] < 
peerid> 
< tablename> 


Options: 
starttime beginning of the time range 
without endtime means from starttime to forever 
stoptime end of the time range 
families comma-separated list of families to copy 


Args: 
peerid Id of the peer used for verification,must match the 
one given 
for replication 
tablename Name of the table to verify 


Examples: 

To verify the data replicated from TestTable for a 1 hour window 
with peer #5 

$ bin/HBase 
org.apache.hadoop.HBase.mapreduce.replication.VerifyRepli cation \ 

--Starttime=1265875194289 --stoptime=1265878794289 5 TestTable 


该 命令 必须 在 主 集群 上 执行 ， 并 且 需 要 提供 从 集群 的 ID (建立 复 
制 流 时 提供 的 ) 和 表 名 。 其 他 选项 可 指定 时 间 范 围 和 列 族 。 


12.3 ”额外 的 任务 


除了 运 维 任务 和 数据 任务 ， 我 们 还 有 和 额外 的 任务 用 于 设 鞋 和 运行 
测试 或 生产 的 HBase 集 群 。 我 们 将 在 下 面 的 革 市 讨论 额外 的 任务 。 


12.3.1 集群 共存 
为 了 测试 ， 让 两 个 不 同 的 HBase 实 例 运行 在 同一 个 物理 机 器 上 是 


非常 有 用 的 。 例 如 ， 当 用 户 需 要 在 开发 机 上 设计 复制 数据 的 原型 系统 
时 ， 这 会 非常 有 用 。 


一 > 不 推荐 在 分 布 式 集群 上 运行 多 个 HBase 实 例 ， 包 括 
其 任何 组 件 ， 这 样 是 未 经 过 测试 的 。 任 何 HBase 进 程 都 不 可 
以 在 生产 环境 中 共享 同一 个 服务 器 ， 而 且 这 也 不 是 它 的 设计 


的 一 部 分 。 


假设 按照 第 2 章 所 说 的 ， 安 装 了 一 个 本 地 的 HBase， 并 且 运 行 在 单 
机 模式 下 ， 用 户 可 以 先 按照 如 下 方法 来 复制 配置 文件 夹 


$ cd $HBASE HOME 


$ cp -pR conf conf.2 


下 一 步 是 修改 新 的 conf.2 目录 中 的 hbase-env.sh 文件 。 


# Where log files are stored. $HBASE_HOME/logs by default. 
export HBASE_LOG_DIR=${HBASE_HOME}/logs.2 


# A string representing this instance of hbase. $USER by default. 
export HBASE_IDENT_STRING=${USER}. 2 


这 样 可 以 保证 没有 重复 的 本 地 文件 名 。 然 后 用 户 还 需要 修改 
hbase-site.xml 文件 : 


< configuration> 
< property> 
< name>hbase.zookeeper.quorum< /name> 
< value>localhost< /value> 
< /property> 
< property> 


< name>hbase.rootdir< /name> 


< value>hdfs://localhost :8020/hbase-2< /value> 


< /property> 


< property> 


< name>hbase.tmp.dir< /name> 


< value>/tmp/hbase-2-${user.name}< /value> 


< /property> 

< property> 
< name>hbase.cluster.distributed< /name> 
< value>true< /value> 

< /property> 

< property> 


< name>zookeeper.znode.parent< /name> 


< value>/hbase-2< /value> 


< /property> 


< property> 


< name>hbase.master.port< /name> 


< value>60100< /value> 


< /property> 


< property> 


< name>hbase.master.info.port< /name> 


< value>60110< /value> 


< /property> 


< property> 


< name>hbase.regionserver.port< /name> 


< value>60120< /value> 


< /property> 


< property> 


< name>hbase.regionserver.info.port< /name> 


< value>60130< /value> 


< /property> 


< /configuration> 


加 粗 的 属性 包含 所 要 求 的 修改 。 用 户 需 要 给 两 个 集群 分 配 不 同 的 
端口 ， 这 样 两 个 集群 束 会 补 明 确 地 分 阳 开 。 操 作 第 二 个 集群 需要 指明 
新 的 配置 路 径 : 


$ HBASE_CONF_DIR=conf.2 bin/start-hbase.sh 


$ HBASE_CONF_DIR=conf.2 ./bin/hbase shell 


$ HBASE_CONF_DIR=conf.2 ./bin/stop-hbase.sh 


第 一 条 命令 局 动 第 二 个 本 地 集群 ， 中 间 那 条 命令 局 动 了 一 个 Shell 
并 连接 到 了 集群 上 ， 最 后 一 条 命令 停止 了 集群 。 


12.3.2 ”端口 要 求 


HBase 进 程 在 启动 时 会 绑 定 到 两 个 不 同 的 端口 : 一 个 是 用 于 处 理 
RPC 的 端口 ， 另 一 个 是 用 于 Web UI 的 端口 。 这 适用 于 master 和 每 一 个 
region 服 务 器 进程 。 由 于 用 户 在 每 台 服 务 器 上 只 运行 一 种 进程 类 型 ， 
所 以 用 户 只 需要 在 每 台 服 务 器 上 考虑 分 配 两 个 端口 给 HBase， 除 非 其 
运行 在 一 个 非 分 布 式 集群 上 。 表 12-2 列 出 了 所 有 的 默认 端口 。 


表 12-2 HBase 守 护 进程 使 用 的 默认 端口 


master 用 来 监听 客户 端 请 求 的 RPC 端 口 ， 可 以 使 用 
小 由 nit = 


hbase.master.port 属性 来 w 


| 


master 进 程 用 来 监听 Web UI 的 端口 ， 可 以 使 用 
生来 配置 


。 Ez 
hbase.master.info.port 局 


region 服 务 器 用 来 监听 客户 端 请 求 的 RPC 端 口 ， 可 以 使 用 


hbase.reg ionserver.port 属性 来 配置 


region 服 务 器 进程 用 来 监听 Web UI 请 求 的 端口 ， 可 以 使 用 
性 来 配置 


. a == 
hbase. regionserver.info.port By È 


此 外 ， 如 采用 户 想 配 置 一 个 防火 墙 ， aE K AY 
Hadoop 子 系统 使 用 的 端口 ， 例 如 ，MapReduce 和 HDFS 的 端口 ， 以 使 
HBase 守 护 进 程 可 以 访问 它们 8 。 


12.4 ”改变 日 志 级 别 


HBase 进 程 默认 的 日 志 级 别 为 DEBUG ， 这 在 安装 和 设计 阶段 是 非 
常 有 用 的 。 它 可 以 让 用 户 在 系统 出 现 问题 的 时 候 在 日 志文 件 中 搜寻 到 
更 多 信息 ， 这 部 分 内 容 在 12.5.2 节 中 已 经 讨论 过 了 。 


在 生产 环境 中 ， 用 户 可 以 将 日 志 级 别 降低 ， 例 如 ， 降 低 到 INFO 
或 WARN 级 别 。 这 个 操作 可 以 通过 编辑 conf 目录 下 的 log4j.properties X 
件 来 实现 。 下 面 是 一 个 修改 HBase 类 的 日 志 级 别 的 示例 : 


# Custom Logging levels 
log4j.logger.org.apache.zookeeper=INFO 
#log4j.logger.org.apache .hadoop. fs .FSNamesystem=DEBUG 
log4j . logger .org.apache.hadoop.hbase=INFO 


# Make these two classes INFO-level. Make them DEBUG to see more 
zk debug. 
log4j.logger.org.apache.hadoop. hbase. zookeeper .ZKUtil=INFO 
log4j.logger.org.apache.hadoop. hbase. zookeeper .ZooKeeperwatcher=IN 
FO 

#10g4j.logger.org.apache.hadoop.dfs=DEBUG 

# Set this class to log INFO only otherwise its OTT 


这 个 文件 需要 被 复制 到 所 有 服务 器 上 ， 然 后 重 局 集群 使 得 修改 生 


Sak 
Sok 


心 


如 采 想 要 和 暂时 改变 日 志 级 别 ， 或 者 修改 了 属性 文件 但 是 不 想 立 即 
重 局 ， 用 户 可 以 使 用 Web UI 和 其 日 志 级 别 页 面 。 这 部 分 内 容 在 6.5.3 节 
中 已 经 讨论 过 了 。 由 于 UI 日 志 级 别 修改 只 作用 于 载 入 该 页 面 的 服务 
咒 ， 所 以 需要 分 别 修改 集群 中 每 一 侣 服务器 的 日 志 级 别 。 


12.5 ”故障 处 理 


E 内 容 主要 帮助 用 户 处 理 故 障 集群 ， 以 及 修复 运行 不 正常 工作 


X 


12.5.1 HBase Fsck 


HBase 有 一 个 叫做 hbck 的 工具 ， 其 功能 由 HBaseFsck 类 来 实现 。 
它 提 供 了 许多 可 以 影响 其 行为 的 命令 行 参数 。 用 户 可 以 使 用 -h 参数 来 
查看 帮助 。 


$ ./bin/HBase hbck -h 


Unknown command line option : -h 
Usage: fsck [opts] 
where [opts] are: 
-details Display full report of all regions. 
-timelag {timeInSeconds} Process only regions that have not 


experienced 
any metadata updates in the last {{timeInSeconds} 
seconds. 
-fix Try to fix some of the errors. 
-SsleepBeforeRerun {timeInSeconds} Sleep this many seconds 
before checking 
if the fix worked if run with -fix 
-summary Print only summary of the tables and status. 


在 运行 hbck WY, details 参数 可 以 打印 出 更 为 详细 的 输出 ， 而 
summary 参数 打印 出 的 输出 较 少 。 当 没有 参数 时 ， 则 按 正 靖 情 况 打 印 
输出 ， 例 如 : 


$ ./bin/HBase hbck 


Number of Tables: 40 
Number of live region servers: 19 
Number of dead region servers: 0 
Number of empty REGIONINFO_QUALIFIER rows in .META.: 0 
Summary : 
-ROOT- is okay. 
Number of regions: 1 
Deployed on: host1.foo.com:60020 
.META. is okay. 
Number of regions: 1 
Deployed on: host4.foo.com:60020 
testtable is okay. 
Number of regions: 15 
Deployed on: host7.foo.com:60020 hosti4.foo.com:60020 


testtable2 is okay. 
Number of regions: 1 
Deployed on: host1i1.f00.com: 60020 
© inconsistencies detected. 


Status: OK 


其 他 参数 如 timelLlag flsleepBeforeRerun 在 使 用 说 明 中 都 有 
详细 介绍 。 它 们 可 以 用 于 检查 数据 的 子 集 ， 也 可 以 通过 延迟 再 次 检查 
的 时 间 来 报告 任何 剩 下 的 问题 。 

一 旦 开始 运行 ，hbck 工具 会 扫描 .META. 表 来 收集 其 持 有 的 所 有 
相关 信息 。 它 还 会 扫描 HBase 使 用 的 HDFS 中 的 root 目 录 。 然 后 它 会 比 
较 收 集 的 信息 来 报告 相关 的 一 致 性 和 完整 性 问题 。 


一 致 性 检查 


一 致 性 检查 以 region 为 单位 。 它 会 检查 r regione AVF 否 同时 存在 
于 .META. 表 和 HDFS 中 ， 并 检查 其 是 否 只 被 指派 给 唯一 的 region 服 务 
BR 
完整 性 检查 


完整 性 检查 以 表 为 单位 。 它 将 region 与 表 细 区 信息 来 进行 比较 以 
RETRA Higin 同时 也 会 检查 region 起 止 键 范 围 中 的 空 Si ao Sie 


Fix wel] DRIER IEE ° RES AY TAA, kh 
能 将 被 继续 增强 ， 更 多 的 问题 也 将 被 修复 。 在 本 书写 作 期 间 ， 可 以 修 
复 的 问题 如 下 。 


。 如 果 .META. 没有 被 分 配 ， 则 会 将 其 分 Baal Shi 
。 如 果 .META. 被 分 配 到 多 个 region 服 务 器 上 ， a en 

。 如果 用 户 表 的 region 没 被 分 配 ， 则 其 会 被 重新 分 

。 如 采用 户 表 的 region 被 分 配 到 多 个 region 服 务 e 其 会 被 重新 分 


配 。 
。 如 果 它 当前 所 处 的 服务 器 与 ,META, 表 中 所 述 的 服务 器 不 一 致 ， 
重新 分 配 用 户 表 region 到 狐 的 服务 器 上 。 


th, 
一 一 任用 户 需要 知道 有 时 jbck 报告 的 不 一 致 问题 只 是 暂 
时 的 。 例 如 ， 当 region 在 某 些 日 常 处 理 流程 时 变 为 不 可 用 
时 ，hbck 也 会 报告 这 些 不 一 致 状态 。 用 户 可 通过 添加 
details 参数 来 得 到 更 多 运行 信息 ， 同 时 多 次 运行 这 条 命 
令 来 确定 问题 不 是 暂时 的 。 


12.5.2 日 志 分 析 


在 少数 情况 下 ， 用 户 需 要 参考 由 多 种 HBase 进 程 创建 的 日 志文 件 
来 得 找 问 题 。 日 志文 件 包括 了 许多 信息 ， 一 些 是 打印 的 运行 时 系统 信 
思 ， 还 有 一 些 可 能 是 警告 和 错 旋 信 息 。 某 些 信息 只 是 摘 述 集群 的 暂时 
行为 ， 并 不 意味 集群 出 现 了 长 期 的 问题 。 此 外 ， 还 有 一 些 在 进程 结束 
时 打印 的 系统 错误 信息 。 


表 12-3 展 示 了 HBase、ZooKeeper 和 Hadoop 创 建 的 日 志文 件 。 
user 字段 在 实际 的 文件 名 中 被 启动 进程 的 用 户 ID 替换 ， 同 时 
hostname 被 进程 运行 时 的 服务 右 名 替换 。 


表 12-3 不 同 服务 种 类 创建 的 日 志文 件 


服务 器 类 型 Log 文 件 
$HBASE_HOME/logs/HBase-<user>-master-<hostname>.log 


HBase $HBASE_HOME/logs/HBase-<user>-regionserver- 
RegionServer <hostname>.log 
RE ŠA 


出 台 打 印 日 有 


ZooKeeper 


服务 器 类 型 Log 文 件 
NameNode $HADOOP_HOME/logs/hadoop-<user>-namenode- 
<hostname>.log 
DataNode $HADOOP_HOME/logs/hadoop- <user>-datanode- 
<hostname>.log 


JobTracker $HADOOP_HOME/ogs/hadoop- <user> -jobtracker- 
<hostname>.log 

Task Tracker $HADOOP_HOME/logs/hadoop- <user> -jobtracker- 
<hostname>.log 


显然 ， 这 些 路 径 可 以 通过 修改 对 应 的 系统 配置 文件 来 进行 修改 。 


当 用 户 分 析 日 志文 件 时 ， 应 当先 从 master 日 志文 件 开始 ， 因 为 它 
起 到 协调 整个 集群 的 作用 。 该 文件 包括 了 负载 均衡 器 (balancer) 在 
内 等 后 台 操 作 的 运行 提示 信息 : 


2011-06-03 09:12:55,448 INFO 
org.apache.hadoop.HBase.master.Hmaster: balance \ 

hri=testtable, mykey1, 1308610119005. dbccd6310dd7326f28ac09b60170a84 
c.,\ 


src=host1.foo.com, 60020, 1308239280769, dest=host3.foo.com, 60020, 130 
8239274789 


当 region 拆 分 时 ， 应 当 会 报告 如 下 信息 : 


2011-06-03 09:12:55,344 INFO 


org.apache.hadoop.HBase.master.ServerManager: \ 
Received REGION_SPLIT: 


testtable, myrowkey5, 1308647333895. O0b8eef feba8e2168dc7c06148d93dfcf 


Daughters;testtable, myrowkey5, 1308647572030. bc7cc0055a3a4fd7a5f56d 
f6f27a696b., 


testtable, myrowkey9, 1308647572030. 87882799b2d58020990041fF588b6b31c 
from host5.foo.com, 60020, 1308239280769 


大 部 分 日 志 信 息 是 INF0 级 别 的 信息 ， 它 们 很 好 地 描述 了 集群 正 
在 进行 的 工作 和 正 处 于 的 状态 。 用 户 可 以 通过 查看 这 些 信息 回溯 时 
间 ， 同 时 了 解 集 群 之 前 在 做 什么 。 master 通 党 只 是 简单 有 规律 的 输出 
这 些 信 息 ， 所 以 当 用 户 观 察 某 段 日 志 时 ， 很 可 能 会 发 现 一 些 相 同 的 且 
不 断 重 复 的 运行 模式 。 

如 采 出 现 错误 ， 这 些 模式 将 会 改变 : 日 志 信 息 中 出 现 一 条 WARN 

(warmning 的 简写 ) 信息 甚至 ERROR 级 别 的 信息 。 用 户 需 要 找 出 这 些 模 

式 ， 并 在 正常 模式 被 打 断 前 重新 进行 设置 。 


一 一 我 们 在 10.2.5 节 中 介绍 了 一 些 有 用 的 监控 指标 ， 它 
们 是 一 些 系统 级 的 统计 信息 error 日 志 事 件 监控 指标 给 出 了 
一 张 图 ， 该 图 显示 了 从 什么 时 段 开始 集群 打印 的 错误 信息 开 
始 增加 。 找 到 图 中 曲线 开始 上 升 的 时 间 点 ， 并 按 这 个 时 间 点 
查找 输出 日 志 。 


一 旦 用 户 找到 了 开始 输出 ERROR 信息 的 时 间 点 ， 用 户 整 可 以 确定 
问题 的 根源 了 。 许 多 后 续 的 信息 都 有 附加 的 其 他 损害 它们 是 原始 问 
题 产 生 的 副作用 。 


并 非 所 有 集群 行为 改变 的 相关 信息 都 使 用 更 高 级 别 的 日 志 打 印 


出 。 下 面 是 一 个 region 状 态 变 化 时 间 过 长 的 日 志 信息 。 


2011-06-21 09:19:20,218 INFO 
org.apache.hadoop.hbase.master.Assignmen tManager: 
Regions in transition timed out: 


testtable, myrowkey123, 1308610119005. dbccd6310dd7326f28ac09b60170a8 
Ac. 
state=CLOSING, ts=1308647575449 


2011-06-21 09:19:20,218 INFO 
org.apache.hadoop.hbase.master.Assignment Manager: 

Region has been CLOSING for too long,this should eventually 
complete or the 

server will expire,doing nothing 


日 志 的 级 别 是 info， 因 为 系统 最 终 会 修复 这 个 问题 。 但 是 ， 它 也 
可 能 表明 集群 开始 遇 到 了 许多 更 严重 的 问题 ， 如 和 点 超载 。 用 户 在 分 
析 日 志 时 ， 需 要 确定 正常 工作 模式 被 打 断 的 时 间 点 。 


一 旦 用 户 调 查 完 master 日 志 ， 束 可 以 开始 查看 region 服 务 器 日 志 


了 。 使 用 监控 指标 找到 异常 日 志 出 现 的 时 间 点 ， 然 后 开始 仔细 检查 该 
服务 器 。 


一 旦 用 户 发 现 错误 信息 ， 使 用 线 上 资源 查找 © 公共 邮件 列表 ( 参 
见 http://hbase.apache. org/mail-lists.html ) 。 这 些 问题 很 有 可 能 以 前 都 
被 发 现 并 讨论 过 ， 特 别 是 重复 出 现 的 问题 ， 例 如 ， 之 前 提 到 的 服务 需 
过 载 场 景 : 甚至 错误 也 有 固定 的 模式 。 


以 下 是 一 个 错误 信息 的 例子 ， 这 个 错误 是 由 于 region ARH aE 
ZooKeeper 集 群 中 的 会 话 超时 引起 的 。 


2011-06-09 15:28:34,836 ERROR 
org.apache.hadoop.HBase. regionserver .HregionServer: 
Zookeeper session expired 

2011-06-09 15:28:34,837 ERROR 


org.apache.hadoop.HBase.regionserver .HregionServer: 
java.io.IOException: Server not running, aborting 


用 户 可 以 在 日 志 中 查询 "ERROR" 和 "aborting" 来 查找 停止 工 
作 的 服务 器 出 错 的 原因 。 


12.5.3 ”常见 问题 


以 下 是 用 户 安 装 集群 时 可 能 过 到 的 常见 问题 的 列表 。 
1. 基本 安装 检查 表 


本 市 提供 了 一 些 用 户 在 启动 HBase 之 后 需要 检查 的 项 目 ， 在 检查 
这 些 项 目 之 后 用 户 可 以 进行 更 深入 的 问题 分 析 和 性 能 调 优 。 


文件 句柄 。 DataNode 进 程 和 HBase 进 程 中 的 ulimit -n 值 应 当 
被 设 得 稍 遍 一些。 用户 可 以 使 用 以 下 命令 来 检查 当前 ulimit 设 置 。 


$ cat /proc/< PID of JVM>/limits 


HP ay AS EZ RR a EE Rta, KEAN e32000, EE 
Ee 。2.2.2 末 中 的 “文件 句柄 和 进程 限制 ?详细 说 明了 如 何 配置 这 些 


DataNode 连 接 数 。DataNode 需 要 配置 一 个 更 高 的 收发 器 数目 ， 
至 少 为 4096 或 更 大 。 设 置 为 16000 或 更 大 也 没有 什么 特别 的 坏处 。 参 见 
2.2.2 节 中 的 “DataNode 处 理 线程 数 ”。 


压缩 。 压 缩 应 当 一 直 被 打开 ， 除 非 存 储 的 信息 已 经 被 预 压缩 过 
了 。 用 户 可 以 参见 11.3 世 所 讨论 的 细节 内 容 。 保 证 用 户 已 经 检查 了 这 
些 条 目 ， 这 样 region 服 务 右 可 以 加 载 对 应 的 压缩 库 。 和 否则 ， 可 能 会 出 
现 以 下 错误 : 


hbase(main):007:0> create 'testtable',{ NAME => 
"colfami',COMPRESSION => 'LZO' } 


ERROR: org.apache.hadoop.hbase.client .NoServerForRegionException: 


No server address listed in .META. for region \ 
testtable2, , 1309713043529. 8ec02f811f 75d2178ad098dc40b4efcf. 


在 服务 器 的 日 志文 件 中 ， 用 户 可 以 找到 这 个 问题 的 根源 (以 下 显 
示 的 内 容 被 简化 了 ， 并 且 通 过 换行 来 保持 文本 视 度 ) : 


2011-07-03 19:10:43,725 INFO 
org.apache.hadoop.hbase.regionserver.HRegion: \ 
Setting up tabledescriptor config now ... 
2011-07-03 19:10:43,725 DEBUG 
org.apache.hadoop.hbase. regionserver .HRegion: \ 
Instantiated 
testtable, , 1309713043529. 8ec02f811f75d2178ad098dc40b4ef cf. 
2011-07-03 19:10:43,839 ERROR 
org.apache.hadoop.hbase.regionserver.handler.\ 
OpenRegionHandler: Failed open of region=testtable, ,1309713043529. 
\ 


8ec02f811F75d2178ad098dc40b4efcFf. 
java.io.IOException: java.lang.RuntimeException: \ 
java.lang.ClassNotFoundException: 
com.hadoop.compression.1zo.LzoCodec 
at org.apache.hadoop.hbase.util.CompressionTest.testCompression 
at 
org.apache.hadoop.hbase. regionserver .HRegion.checkCompressionCodec 
S 


缺少 压缩 库 引 发 了 这 个 错误 ，region 服 务 右 试图 打开 一 个 region ， 
而 这 个 region 中 的 列 族 配置 使 用 了 LZO 压 缩 。 


垃圾 回收 /内 存 调 优 。 常 用 的 垃圾 回收 配置 我 们 在 11.1 节 中 已 经 讨 
论 过 了 。 如 有 果 内 存 足 够 ， 用 户 应 当 把 region 服务 絮 的 堆 大 小 调整 为 4 
GB， 甚 至 调整 为 8GB。 推 荐 的 回收 策略 应 当 可 以 应 对 各 种 堆 大 小 。 


如 果 用 户 把 region Hk as 4 MapReduce Task Tracker 一 起 运行 时 ， 
瓯 需要 考虑 共享 系统 中 可 能 出 现 的 资源 竞争 。 修 改 mapred-site.xml X 
件 来 减少 region 服 务 右 上 的 计算 单元 位 数 ， 这 样 用 户 可 以 将 更 多 的 内 
存 分 配给 region 服 务 右 。 预 先 计 算 好 内 存 的 分 配 情况 ， 包 括 Task 
Tracker、region 服 务 器 和 Child Task (参考 mapred-site.xml 和 hadoop- 
env.sh 两 个 文件 ) 所 需 分 配 的 内 存 ， 以 保证 region 服 务 器 拥有 足够 的 内 
存 ， 同 时 也 保证 系统 有 足够 的 内 存 ， 参 考 2.2 节 。 如 果 资 源 紧 张 ， 用 户 
可 能 需要 考虑 把 MapReduce 与 HBase 分 开 。 


mia, HBasetleCPU Sean At ° BUA AES ERARE 
CPU 不 太 紧 张 ， 使 用 简单 的 命令 ， 例 如 ，top 来 检查 CPU 使 用 率 以 确定 
是 否 需 要 减少 计算 单元 ， 或 使 用 第 10 章 中 介绍 的 方法 来 监控 服务 器 状 


2. 稳定 性 问题 
在 极端 情况 下 ，region 服务 器 可 能 会 天 闭 或 意外 结束 。 用 户 可 以 
检查 以 下 内 容 。 
° Pu a (此 版 本 有 已 知 的 问题 影响 HBase 进 
程 ) 。 


。 检查 region 服务 器 日 志 的 最 后 儿 行 一 一 其 中 应 当 包 括 aborting 
(或 abort ) 信息 。 


最 后 有 可 能 出 现 的 情况 是 服务 右 的 ZooKeeper 会 话 过 期 超时 。 如 采 
征 这 种 情况 ， 则 需要 检查 以 下 几 项 。 


ZooKeeper 问 题 。 确 保 ZooKeeper 能 正常 提供 HBase 所 需 的 重要 的 
协调 服务 。 同 时 保证 HBase 进 程 可 以 以 正常 的 频率 与 ZooKeeper 通 信也 
十 分 重要 
确定 region 服 务 器 和 ZooKeeper 没 有 开始 使 用 交换 分 区 

如 果 服 务 器 开始 使 用 交换 分 区 (swap) ， 请 求 的 某 些 资源 可 能 会 
开始 超时 ， 同 时 region 服 务 器 会 丢失 其 ZooKeeper 会 话 ， 这 会 导致 服务 


如 大 团 。 用 户 可 以 使 用 Ganglia 来 监控 交换 内 存 的 使 用 量 ， 或 在 对 应 的 
服务 器 上 运行 以 下 命令 : 


$ vmstat 20 


当 服务 器 上 有 人 负载 时 (如 MapReduce 作 业 ) : 确保 “si” 和 “so” 列 为 
0。 这些 列 反映 了 交换 出 或 入 的 内 存 情况 。 同 时 运行 以 下 命令 : 


$ free -m 


此 命令 可 以 确保 没有 交换 空间 被 使 用 (交换 列 应 为 0 ， 并 且 考 虑 
调整 内 核 swappiness 值 (/proc/sys/vm/swappiness ) 为 5 或 10 © 
这 会 防止 在 总 内 存 分 配 量 小 于 可 用 内 存 时 使 用 交换 区 。 


检查 网 络 问题 


如 果 网 络 不 稳定 ，region 服 务 絮 会 丢失 它们 到 ZooKeeper 的 连接 并 
停止 工作 。 


检查 ZooKeeper 机 器 部 署 情况 


TA AE paT 点 部 署 到 TaskTracker 或 DataNode 上。 在 较 
小 的 集群 中 ， 最 好 将 其 与 NameNode、SecondaryNameNode 或 
JobTracker 部 署 到 一 起 〈 例 如 ， 小 于 40 个 节点 的 集群 ) 。 其 他 进程 将 加 
剧 机 需 的 负担 ， 并 导致 Zoo0Keeper 超 时 。 


最 好 只 布 署 一 个 ZooKeeper 与 NameNode 或 JobTracker 共 享 ， 而 不 是 
将 以 上 三 者 与 其 他 进程 一 起 使 用 。 


检查 垃圾 回收 产生 的 停顿 


检查 region 服务 器 日 志 中 的 "slept "， 例如， 用 户 可 能 会 看 到 "We 
slept 65000ms instead of 10000ms"° WRAP SS Sixt 
日 志 ， 则 很 可 能 是 发 生 了 长 时 间 的 垃圾 回收 或 繁重 的 内 存 交 换 。 如 采 
是 垃圾 回收 停顿 ， 请 参考 本 市 “基本 安装 检查 表 ” 中 的 优化 选项 。 


监控 慢 磁 盘 


HBase 在 DataNode 中 读 写 块 时 过 到 了 磁盘 变 慢 的 情况 ， 且 没有 做 
特别 的 降级 处 理 。 如 果 这 个 块 正好 在 META region"? , 则 这 种 情况 有 
可 能 会 影响 整个 集群 的 性 能 ， 并 造成 合并 变 得 缓慢 。 此 时 ， 用 户 需 要 
使 用 监控 工具 检查 重要 的 系统 指标 项 是 天 正常 o 


“Could not obtain block” 错 误 。 通 常情 况 下 这 是 DataNode 接 收 器 
的 问题 ， 在 本 广 的 “基本 安装 检查 表 ” 部 分 进行 了 讨论 。 反 复 检查 对 应 
的 接收 器 值 ， 同 时 检查 DataNode 日 志 ， 看 看 其 中 有 没有 "exceeds 
the limit "项 ， 这 些 日 志 表 明 接 收 怖 出 现 了 问题 。 检 查 region 服 务 
器 和 data node 的 日 志 以 发 现 "Too many open files "错误 。 


© 如 之 前 所 写 的 ， 新 启动 的 master 也 没有 页 面 UI 可 用 。 也 惑 是 说 ， 访 
问 它 的 “info* 端 口 不 会 得 到 任何 反馈 。 


@ 问题 跟踪 系统 中 有 一 项 来 修正 这 个 不 便 之 处 ， 即 今后 这 一 点 会 得 到 
改善 。 不 过 到 目前 为 止 ， 用户 可 以 使 用 脚本 来 从 ZooKeeper 中 读 取 当 前 
master 的 主机 名 ， 并 指定 一 个 固定 的 DNS 项 到 当前 的 master E ° 


© 注意 ， 有 些 HBase 的 发 行 版 不 要 求 这 些 ， 因 为 它们 不 使 用 start- 
hbase.sh 脚本 。 


@ 癌 题 跟踪 系统 已 经 开局 了 一 项 内 容 ， 该 项 用 来 使 用 一 个 更 现代 的 命 
令 行 解析 参数 。 这 会 影响 未 来 任务 中 的 参数 设 定 方 式 。 


© Hadoop 使 用 相似 的 端口 分 配方 式 ， 但 是 ， 因 为 它 的 进程 种 类 更 多 ， 
所 以 它 占用 了 更 多 端口 。 请 查阅 网 上 的 相关 日 志 内 容 ( 
http://www.cloudera.com/blog2009/08/hadoop-default-porte-quick- 
reference/) ° 


© 用 户 可 以 使 用 Hadoop 搜 索 服 务 ， 即 http:/search-hadoop.com/。 


附录 A ”HBase 配 置 属性 


本 贡 列 出 了 HBase 文 持 的 所 有 配置 和 默认 属性 ， 以 及 配置 的 使 用 
说 明 。 使 用 配置 时 需要 引用 hbase-site.xml 文件 。 为 了 便于 查找 ， 下 面 
列 出 的 属性 按 字 母 顺序 排列 ， 如 何 调 优 更 重要 的 属性 的 细节 请 看 11.8 
H (©) 


一 一 属性 的 描述 来 自 于 hbase-default.xml 文件 。 为 了 方 
便 读 者 ， 类 型 、 默 认 值 和 单位 都 已 经 填 加 进去 。 


hbase.balancer.period 

在 master 广 点 中 运行 region 负 载 均衡 器 的 周期 。 

类 型 . int 

默认 值 : 300000 (5 分 钟 ) 

单位 ， 毫 秒 

hbase.client.keyvalue.maxsize 

设置 KeyValue 实例 大 小 的 上 限 ， 这 是 为 了 协助 设置 存储 文件 中 
单个 条 目 存 储 的 上 限 。 这 种 做 法 有 利于 避免 region 过 大 但 不 能 被 拆 分 
的 现象 ， 最 好 将 其 设置 为 最 大 的 region 大 小 。 如 果 用 户 想 绕 开 这 个 检 
查 ， 可 以 将 这 个 参数 设置 为 0 或 更 少 。 


类 型 : int 


默认 值 : 10485760 
单位 ， 字 节 
hbase.client.pause 


客户 端 暂 俘 时 间 。 最 常用 做 失败 的 get 和 region 碍 询 等 操作 重 试 前 


等 待 的 时 间 。 


XAI. long 

默认 值 : 1000 (1 秒 ) 

单位 ; 毫秒 
hbase.client.retries.number 


最 大 重 试 次 数 。 例 如 ，region 查 询 、get 和 update 操 作 等 发 生 错误 时 


最 大 重 试 的 值 。 


完 


类 型 ，int 
默认 值 : 10 
单位 : 数值 
hbase.client.scanner.caching 


扫描 器 调用 next 方法 的 时 候 发 现 本 地 客户 端 内存 的 数据 已 经 取 
PLA ARS ain ARBOR, A iets val next 方法 一 次 


FEUR EB 该 值 越 大 ， 扫 摘 右 整体 的 返回 速度 整 


但 同时 依赖 的 内 存 也 整 越 多 ， 并 且 当 请 求 的 数据 没有 在 内 存 中 


rae next 方法 的 返回 时 间 可 能 会 更 长 ， 因 此 要 避免 这 个 时 间 
长 于 扫描 器 超时 的 时 间 ， 即 


hbase.regionserver.lease.period ° 


类 型 : int 


BAUME: 1 


Bar: 数值 
hbase.client.write. buffer 


HTable 窗户 端 写 缓冲 区 的 默认 字 节 大 小 。 该 值 越 大 消耗 的 内 存 
越 多 一 一 由 于 服务 器 端 也 需要 消耗 内 存 来 处 理 传 入 的 数据 ， 客 户 端 与 
服务 器 端 都 会 消耗 更 多 的 内 存 一 一 较 大 的 缓冲 区 大 小 有 助 于 减少 RPC 
调用 的 次 数 。 例 如 ， 服 务 器 端的 内 存 消耗 大 概 等 于 
hbase.client.write.buffer * 
hbase.regionserver.handler.count 的 值 。 


XA. long 

默认 值 : 2097152 

单位 : 字 节 

hbase.cluster.distributed 

HBase 集 群 的 运行 模式 。 该 值 为 false 时 ， 集 群 是 单机 模式 ;该 


值 为 true 时 ， 集 群 是 分 布 式 模式 。 如 有 果 将 该 值 设置 为 false lll 
HBase 与 ZooKeeper 的 守护 进程 将 运行 在 同一 个 JVM 中 。 


类 型 : boolean 
默认 值 : false 
hbase.coprocessor.master.classes 


HMaster 进 程 默认 使 用 的 协 处 理 器 是 
org.apache.hadoop.hbase.coprocessor.MasterObserver 
， 在 这 个 配置 中 协 处 理 锅 之 间 用 喜 号 分 隔 ， 协 处 理 需 中 实现 的 方法 将 
按照 配置 顺序 执行 。 用 户 可 以 通过 继承 Master0bserver 来 实现 自 
只 需 将 其 添加 到 HBase 的 classpath 中 ， 并 添加 可 用 的 类 


类 型 : 类 名 


默认 值 : 无 
hbase.coprocessor.region.classes 


TASER as ZT ES oP BR, ETE eS BAS Be PTS ET 
载 ， 并 按照 顺 友 执行。 用户 可 以 实现 目 己 的 协 处 理 絮 ， 只 需 将 其 添加 
到 HBase 的 classpath 中 ， 并 在 此 配置 完整 类 名 。 用 户 也 可 以 根据 需求 通 
过 设置 HTableDescriptor 来 选择 性 地 加 载 协 处 理 器 。 


类 型 ， 类 名 
默认 值 : 无 
hbase.defaults.for.version.skip 


将 当前 参数 设置 为 true 可 以 跳 过 
hbase.defaults.for.version 检查 。 将 该 参数 设置 为 true， 其 
会 在 上 下 文中 发 挥 作用 ， 这 一 点 不 同 于 其 在 maven 下 的 使 用 方法 ， 即 
在 IDE 中 通过 maven 使 用 HBase。 用 户 也 可 以 将 该 参数 设置 为 true， 

以 避免 因 hbase-default.xml 中 的 版 本 匹配 检查 不 通过 而 抛 出 的 运行 时 


已 Ae 
at 


类 型 : boolean 
默认 值 : false 
hbase.hash.type 


HashFunction 中 使 用 的 散 列 算法 ， 其 文 持 两 个 值 : murmur 
(MurmurHash) 和 jenkins (JenkinsHash) ， 并 应 用 于 布 隆 过 滤器 
中 o 


类 型 : string 


RIE: murmur 


hbase.hregion.majorcompaction 


region 中 所 有 HStoreFile 的 major 合 并 的 周期 。 默 认 值 是 1 天 。 
将 其 设置 为 0 可 以 禁用 major 合 并 。 


XA. long 

默认 值 : 86400000 (1 天 ) 

单位 : E 
hbase.hregion.max.filesize 


HStoreFile 的 最 大 值 。region 中 任何 一 个 列 族 的 存储 文件 如 果 
超过 了 这 个 上 限 ， 残 会 被 拆 分 成 两 个 region。 


XA. long 

ERUME: 268435456 (256x1024x1024) 

单位 ， 字 节 
hbase.hregion.memstore.block.multiplier 


如 果 memstore 达 到 了 
hbase. hregion.memstore.block.memstore RLA 


hbase.hregion. flush.size 的 大 小 ， 就 会 阻塞 更 新 操作 。 这 是 
为 了 预防 在 更 新 高 峰 期 会 导致 的 失控 。 如 果 不 设 上 界 ， 刷 写 的 时 候 会 
花费 很 长 的 时 间 来 合并 或 者 拆 分 ， 最 坏 的 情况 还 会 引发 OOME 弄 名 。 

类 型 : int 

默认 值 : 2 

单位 : 数值 


hbase.hregion.memstore.flush.size 


WAAL EAA ABIX TUE, memstorek jim 2 hall Sj BN Hk ok 
中 。 这 个 值 由 一 个 线程 每 隔 
hbase.server.thread.wakefrequency 检查 一 次 。 


类 型 : long 

默认 值 : 67108864 (1024x1024x64L ) 

单位 ， 字 节 
hbase.hregion.memstore.mslab.enabled 


启动 本 地 memstore 分 配 缓冲 区 (MemStore-Local Allocation 
Buffer, MSLAB) ， 这 个 特性 是 为 了 防止 在 大 量 写 负载 的 时 候 堆 的 碎 
片 过 多 。 这 有 利于 降低 Full 垃 圾 回收 的 频率 。 


类 型 : boolean 
默认 值 : true 
hbase.hregion.preclose.flush.size 


当 我 们 要 关闭 一 个 memstore 的 大 小 大 于 这 个 值 的 region 时 ， 此 时 会 
移 运 行 “ 预 刷 写 ”操作 ， 清 理 这 个 需要 关闭 的 memstore， 然 后 再 将 这 个 
region 下 线 。 在 关闭 region 时 ， 关 闭 标签 会 触发 一 次 清空 内 存 的 刷 写 。 
在 region 处 于 下 线 过 程 中 时 ， 我 们 束 无 法 再 对 其 进行 任何 写 操作 了 。 
如 果 一 个 内 存 存 储 中 的 内 容 很 大 ， 刷 写 磁盘 操作 会 消耗 很 多 时 间 。 预 
刷 写 操作 意味 着 在 region 被 打上 关闭 标签 之 前 ， 会 先 把 写 memstore 清 
oa 这 样 在 最 终 执行 天 闭 操作 的 时 候 ， 带 关闭 标签 的 刷 写 操作 会 很 


XW. long 


默认 值 : 5242880 (1024x1024x5) 
单位 ， 字 节 
hbase.hstore.blockingStoreFiles 


如 果 一 个 HRegion 中 存储 文件 的 数量 (每 次 MemStore 刷 写 到 磁 
盘 便 会 产生 一 个 存储 文件 ) 达到 一 个 阐 值 ， 该 HRegion 就 会 强制 阻塞 


Pn SK, EIER- UCI SSF, Be BASE Bl) 
hbase. hstore.blockingwaitTime 超时 。 


类 型 : int 

默认 值 : 7， 硬 编码 : -1 

单位 : 数值 
hbase.hstore.blockingwaitTime 


当 一 个 HRegion 的 Storefile 数量 达到 


hbase.hstore.blockingStoreFiles 设置 的 值 后 ， 其 会 阻塞 客 
户 端 写 请 求 。 超 过 当前 设置 的 时 间 时 ， 即 使 合并 没有 完成 ， 也 会 停止 


阻塞 写 请 求 。 
类 型 : int 
默认 值 : 90000 
单位 : E 
hbase. hstore.compaction.max 
每 次 minor 合 并 处 理 的 最 大 HstoreFile 数目 。 
类 型 : int 
默认 值 : 10 
单位 : 数值 
hbase.hstore.compactionThreshold 


当 一 个 HStore 含有 多 于 这 个 值 的 HStoreFile (每 一 次 


memstore 刷 写 产 生 一 个 HStoreFile ) 时 ， 会 执行 一 个 合并 操作 ， 把 
这 个 HStoreFiles 写成 一 个 。 这 个 值 越 大 ， 合 并 消耗 的 时 间 越 长 。 


XAJ. int 


默认 值 : 3， 硬 编码 : 2 
单位 : 数值 


hbase.mapreduce.hfileoutputformat.blocksize 


MapReduce HfileOutputFormat 可 以 直接 写 HFile 格 式 的 存储 
文件 。 这 个 值 是 HFile 的 blocksize 的 最 小 值 。 通 常 在 HBase 写 HFile 
HJIR, blocksize 是 由 表 模 式 (HColumnDescriptor ) 决定 
的 ， 但 是 在 MapReduce 写 HFile 的 时 候 ， 我 们 无 法 访问 表 模 式 ， 所 以 我 
们 从 配置 中 获取 bl1ocksize 。 这 个 值 越 小 ， 索 引文 件 就 越 大 ， 随 机 
访问 需要 获取 的 数据 就 越 小 。 如 果 用 户 的 数据 都 很 小 ， 而 且 需 要 更 快 
地 随机 访问 ， 可 以 把 blocksize 调 低 。 

类 型 : int 

默认 值 : 65536 

单位 : 字 节 

hbase.master.dns.interface 

当 使 用 DNS 的 时 候 ，master 用 来 上 报 了 地 址 的 网 络 接口 名 。 

类 型 : string 

默认 值 : “default” 


hbase.master.dns.nameserver 


当 使 用 DNS 的 时 候 ，region 服 务 套 使 用 的 主机 名 或 者 地址。 
master 用 它 来 确定 需要 进行 通信 的 主机 名 。 


类 型 : string 
默认 值 : “default” 


hbase.master.info.bindAddress 


HBase Master 的 Web UI 绑 定 的 地 址 。 
类 型 : String 

默认 值 : 0.0.0.0 
hbase.master.info.port 


HBase Master 的 Web UI 服 务 端口 。 如 果 不 想 局 动 UI 实 例 ， 则 可 以 
将 当前 参数 设置 为 -1。 


类 型 : int 

默认 值 : 60010 

单位 : 数值 
hbase.master.kerberos.principal 


例如 ，“hbase/_HOST@EXAMPLE.COM”。HMaster 进 程 运行 时 需 
要 使 用 Kerberos 验 证 和 名， 验证 名 可 以 在 user/hostname@DOMAIN 中 获 
取 。 如 有 果 “_HOST” 被 用 做 主机 名 ， 在 实际 运行 的 时 候 可 以 使 用 主机 名 
KEK ° 

类 型 : string 

默认 值 : 无 


hbase.master.keytab.file 


HMasterHu 3 ait do Ub ae (EFA AY) Kerberos keytab 完 整 文件 路 径 。 


类 型 : string 
默认 值 : 无 


hbase.master.logcleaner.plugins 


WAL/HLogin HJY, RAZ LIE Saha, RAM 
LogsCleaner 服务 顺序 调用 ， 以 删除 最 早 的 HLog 文 件 。 用 户 可 以 实 
现 目 己 的 清理 程序 ， 只 需要 在 HBase 的 classpath 中 设置 完整 的 类 名 即 
可 o 


类 型 : string 
默认 值 : 
org.apache.hadoop.hbase.master.TimeToLiveLogCleane 


hbase.master.logcleaner.ttl 


HLog 文 件 在 .oldlogdir 目录 中 最 长 的 生命 周期 ， 一旦 超过 这 个 
值 ，HLog 就 会 被 master 的 线程 清理 掉 。 


XA. long 

默认 值 : 600000 

单位 : ERD 

hbase.master.port 

HBase Master 应 该 绑 定 的 端口 。 

类 型 int 

默认 值 : 60000 

单位 : 数值 

hbase.regions.slop 

HBase 的 负载 均衡 因 了 于， 如果 某 台 region 服 务 器 中 加 载 的 region 数 
量 达 到 了 “平均 值 + (平均 值 x 均衡 因子 ) ”会 自动 进行 负载 均衡 。 默 认 
值 是 20% ° 

类 型 : 无 


默认 值 : 0.2 
单位 : 浮 点 数 (百分比 ) 
hbase.regionserver.class 


I 主要 用 于 客户 端 代理 以 连接 远程 
region 服 务 


类 型 : 类 名 
默认 值 : 


org.apache.hadoop.hbase.ipc.HRegionInterface 
hbase. regionserver.dns.interface 
region 服 务 器 使 用 DNS 时 用 来 报告 IP 地 址 的 网 络 接口 名 。 
类 型 : string 
默认 值 : “default” 
hbase.regionserver.dns.nameserver 


region 服 务 器 使 用 DNS 时 所 用 的 主机 名 或 者 IP HOHE, regionAks as 
用 其 来 确定 和 master 进 行 通信 的 主机 名。 


类 型 : string 
默认 值 : “default” 
hbase.regionserver.global.memstore.lowerLimit 


所 有 region 的 memstore 所 占用 的 内 存 总 和 达到 堆 的 35% 时 ，HBase 
会 强制 刷 写 数据 到 磁盘 中 。 默 认 值 是 堆 的 35%。 当 这 个 值 与 
hbase.regionserver.global.memstore.upperLimit 相等 
eee eae ee 
i SANT o 


XA. float 

默认 值 ，0 .35， 硬 编码 : 0.25 

单位 : 浮 点 数 (百分比 ) 
hbase.regionserver.global.memstore.upperLimit 


单个 region 服 务 器 的 全 部 memstore 的 最 大 值 。 一 旦 超过 这 个 值 ， 一 
个 新 的 更 新 操作 会 被 挂 起 ， 强 制 执行 刷 写 操作 。 默 认 值 是 堆 的 40%。 


类 型 : float 

默认 值 : 0.4 

单位 : 浮 点 数 (百分比 ) 
hbase.regionserver.handler.count 


RegionServer 中 RPC 监 听 凯 实例 的 数量 。 对 于 master 来 说 ， 这 个 属 
性 是 master 受 理 的 处 理 线程 (handler) 数量 。 


类 型 : int 

BAUME: 10 

单位 : 数值 
hbase.regionserver.hlog.reader.impl 
负责 实现 HLog 文 件 读 取 的 类 。 

类 型 ， 类 名 

BAUME: 


org.apache.hadoop.hbase.regionserver .wal.SequenceF 
ileLogReader 


Ms 


hbase. regionserver.hlog.writer.impl 


负责 实现 HLog 文 件 写 入 的 类 。 


默认 值 : 
org.apache.hadoop.hbase.regionserver .wal.SequenceF 
ileLogwriter 

hbase. regionserver.info.bindAddress 

HBase RegionServertJWeb UI 的 地 址 。 

类 型 : string 

默认 值 : 0.0.0.0 

hbase.regionserver.info.port 


HBase RegionServer 的 Web UI 的 问 口 ， 设 置 为 -1 可 以 禁用 HBase 
RegionServerHJWeb UI ° 


RAY. int 

默认 值 : 60030 

单位 : 数值 

hbase.regionserver.info.port.auto 

该 属性 用 于 指定 Master 或 RegionServer 是 否 要 动态 搜索 一 个 要 绑 定 
的 端口 。 当 hbase.regionserver .info. port 已 经 被 占用 的 时 
修 ， 可 以 搜索 一 个 空 几 的 端口 来 绑 足 。 这 个 功能 在 测试 的 时 候 很 有 
用 。 默 认为 关闭 。 

类 型 : boolean 


默认 值 : false 


hbase.regionserver.kerberos.principal 


(lt, “hbase/ HOST@EXAMPLE.COM” ° HRegionServeriit FZ 
行 时 需要 使 用 Kerberos 验 证 名 。 验 证 名 应 该 是 user/hostname@DOMAIN 
格式 。 如 果 “_HOST” 被 用 做 了 主机 名 ， 可 以 使 用 实际 运行 的 主机 名 来 
IVE ° Ehbase.regionserver.keytab. file 中 一 定 要 指定 默 
认 的 验证 文件 。 


类 型 : string 


默认 值 : 25 


hbase.regionserver .keytab .file 
HRegionServer 验 证 登录 使 用 的 Kerberos keytab 完 整 文件 路 径 。 
类 型 : string 

默认 值 ， 空 

hbase.regionserver.1lease.period 


HRegionServer 中 租约 期 限 ， 默 认 值 是 60 秒 。 默 认 情 况 下 ， 客 户 端 
必须 在 这 个 时 间 内 发 送 一 条 信息 来 刷 写 租约 ， 否 则 视 为 死 掉 。 


类 型 : long 

默认 值 : 60000 (1 分 钟 ) 

单位 : E 
hbase.regionserver.logroll.period 


无 论 当前 日 志 中 有 多 少 记 录 ， 达 到 这 个 时 间 间 隅 系统 都 会 日 动 滚 
动 已 经 提交 的 日 志 。 


类 型 long 


默认 值 : 3600000 


单位 : Sepp 


hbase. regionserver.msginterval 


消息 从 RegionServer 发 送 到 HBase Master 的 时 间 间 隔 ， 单 位 是 坚 


少 © 
类 型 : int 
默认 值 : 3000 (3 秒 ) 
单位 : 毫秒 
hbase.regionserver.nbreservationblocks 


储备 的 内 存 块 的 数量 。 当 发 生 OOME 异 常 的 时 候 ， 可 以 用 这 些 内 
存在 region 服 务 锅 停止 工作 之 前 做 清理 操作 。 


XA. int 

默认 值 : 4 

单位 : 数值 
hbase.regionserver.optionallogflushinterval 


将 HLog 同 步 到 HDFS 的 间隔 。 即 使 HLog 没 有 素 积 到 国 值 ， 但 是 一 
旦 到 了 时 间 窒 口 的 末尾 ， 也 会 触发 同步 。 默 认 是 1 秒 ， 单 位 是 副 秒 。 


类 型 long 
默认 值 : 1000 (1 秒 ) 
单位 ;毫秒 


hbase.regionserver.port 


HBase RegionServer 绑 定 的 端口 。 


类 型 : int 


默认 值 : 60020 

单位 : 数值 

hbase.regionserver.regionSplitLimit 

region 2 BIA BX “MES RRA Ro T e ik Ne — regiongt 
ER AHS PBR ll, BÆR] T — ERBER, 2 Pik SRK 
止 拆 分 。 默 认 设置 为 MAX_INT ， 即 不 阻止 拆 分 。 

类 型 : int 

默认 值 : 2147483647 

单位 : 数值 

hbase.rest.port 

HBase REST 服 务 右 的 端口 。 

类 型 : int 

默认 值 : 8080, 硬 编 码 : 9090 

单位 : 数值 

hbase.rest.readonly 

定义 REST 服 务 器 的 运行 模式 。false 意味 着 所 有 的 HTTP 方 法 

(GET ` PUT ` POST 和 DELETE ) 都 是 被 允许 的 ，true 意味 着 只 

GET 方法 是 被 允许 的 。 

类 型 : boolean 


默认 值 : false 


hbase.rootdir 


这 个 目录 是 region 服 务 器 的 共享 目录 ， 用 来 持久 存储 HBase 的 数 
据 。URL 必 须 完 全 正确 ， 其 中 包含 了 文件 系统 的 scheme。 例 如 ， 要 表 
示 HDFS 中 的 /hbase 目录 ，HDFS 实 例 的 namenode 需 运 行 在 服务 器 
namenode.example.org 的 9090 端 口 ， 则 需要 将 这 个 属性 设置 为 
hdfs://namenode .example.org:9000/hbase。 默 认 情 况 下 ， 
ee 的 ， 如 果 不 修改 这 个 配置 ， 数 据 会 在 集群 重启 时 丢 


类 型 : string 
默认 值 : file:///tmp/hbase-${user.name}/hbase 
hbase.rpc.engine 


org.apache.hadoop.hbase.ipc.RpcEngine 的 实现 ， 用 于 
客户 端 /服务 器 RPC 调 用 。 


类 型 : 类 名 
默认 值 : 


org.apache.hadoop.hbase.ipc.wWritableRpcEngine 
hbase.server.thread.wakefrequency 


RARER H (AIR, BEE PEN, A RRRS 
睡眠 时 间 间 隔 。 


类 型 int 
默认 值 : 10000 (10 秒 ) 
单位 ;毫秒 


hbase.tmp .dir 


本 地 文件 系统 的 临时 文件 夹 ， 可 以 修改 为 一 个 更 为 持久 的 目录 
(imp 目录 会 在 重启 时 被 清除 ) ° 


类 型 : string 
默认 值 : /tmp/hbase-${user .name} 
hbase.zookeeper.dns.interface 


当 使 用 DNS 时 ，ZooKeeper 服 务 器 用 来 上 报 其 下地 址 的 网 络 接口 


类 型 : string 
默认 值 : “default” 
hbase.zookeeper .dns.nameserver 


使 用 DNS 时 ，ZooKeeper 服 务 絮 使 用 的 主机 名 或 I1P 地 址 ， 
ZooKeeper 服 务 器 用 它 来 确定 和 master 进 行 通信 的 主机 名。 


类 型 : string 

默认 值 : “default” 

hbase.zookeeper.leaderport 

ZooKeeper 用 来 选择 主 节点 的 端口 。 详 情 见 
http://hadoop.apache.org/zookeeper/docs/r3.1.1/zookeeperStarted.html#sc_ 
RunningReplicatedZooKeeper ° 

类 型 : int 

BAUME: 3888 

单位 ， 数 值 

hbase.zookeeper .peerport 

ZooKeeper 世 点 内 部 通信 使 用 的 端口 。 详 情 见 


http://hadoop.apache.org/zookeeper/docs/r3.1.1/zookeeperStarted.html#sc_ 
RunningReplicatedZooKeeper ° 


类 型 : int 

默认 值 : 2888 

单位 : 数值 
hbase.zookeeper.property.clientPort 


ZooKeeper 的 zoo.c 如 配置 文件 中 的 属性 。ZooKeeper 面 问 客 户 端 服 
务 的 端口 。 


类 型 : int 

默认 值 : 2181 

单位 : 数值 
hbase.zookeeper.property.dataDir 


ZooKeeper 的 zoo.cfg 配置 文件 中 的 属性 。ZooKeeper 元 数据 快照 的 
存储 目录 。 


类 型 : string 
默认 值 : ${hbase.tmp.dir}/zookeeper 
hbase.zookeeper .property.initLimit 


ZooKeeperf'Jzoo.cfg 配置 文件 中 的 属性 。 初 始 化 同步 阶段 可 使 用 
的 tick 的 数量 限制 。 


类 型 . int 
默认 值 : 10 
单位 ; 数值 


hbase.zookeeper .property.maxClientCnxns 


ZooKeepertiJzoo.cfg 配置 文件 中 的 属性 。ZooKeeper 集 群 中 的 单个 


节点 接受 的 单个 客户 端 (以 IP 进 行 区 分 ) 的 请 求 的 并 发 数 。 这 个 值 可 
以 适当 调 高 一 点 ， 以 避免 在 单机 模式 和 伪 分 布 式 模式 中 出 现 连 接 问 


题 。 


类 型 : int 
默认 值 : 30 
单位 : 数值 
hbase.zookeeper.property.syncLimit 


ZooKeepertiJzoo.cfg 配置 文件 中 的 属性 。 发 送 一 个 请 求 到 获得 承 


认 之 间 的 tick 的 数量 限制 。 


类 型 : int 
默认 值 : 5 
单位 : 数值 
hbase.zookeeper .quorum 


ZooKeeper Quorum 中 的 服务 器 列表 ， 使 用 逗号 分 隔 。 例 如 ， 默 


认 “host1.mydomain.com, host2. mydomain.com,host3.mydomain.com”1< 
置 为 本 地 主机 ， 协 助 伪 分 布 式 模式 使 用 。 在 完全 分 布 式 模式 下 ， 用 户 
需要 把 所 有 的 ZooKeeper Quorum 广 点 都 添加 进去 。 如 果 在 hbase-env.sh 
文件 中 设置 了 HBASE_MANAGES_ZK ， 此 列表 中 的 节点 就 是 我 们 将 会 
局 动 或 停止 ZooKeeper 服 务 的 节点 。 


类 型 : string 
默认 值 : localhost 


hfile.block.cache.size 


分 配给 存储 文件 HFile/StoreFile 的 块 缓存 占 启动 虚拟 机 最 大 
HE (-Xmx 设置 ) 的 比例 。 默 认 值 是 20%， 设 置 为 0 就 是 不 分 配 。 


类 型 : float 

默认 值 : 0.2 

单位 : 浮 点 数 (百分比 ) 

zookeeper .session.timeout 

ZooKeeper 会 话 超期 时 间 。HBase 把 这 个 值 传递 给 ZooKeeper 
Quorum 作 为 建议 的 会 话 最 大 超时 时 间 。 详 情 见 
http://hadoop.apache.org/zookeeper/docs/current/zookeeperProgrammers.h 
tml#tch_zkSessions 。 如 琳 客 户 剖 超时 ， 服 务 右 端 会 做 相应 处 理 并 反馈 
给 订阅 事件 的 客户 端 。 单 位 是 襄 秒 。 

类 型 : int 

默认 值 : 180000 

单位 : 毫秒 

zookeeper .znode.parent 

HBase 在 ZooKeeper 中 的 根 znode。 所 有 的 HBase 对 应 要 操作 
ZooKeeper 的 znode 都 会 用 这 个 目 孙 作为 相对 路 径 。 默认 情况 下 ， 所 有 
HBase 的 ZooKeeper 文 件 路 径 都 是 相对 路 径 ， 所 以 都 会 去 这 个 目录 下 面 
进行 操作 。 

类 型 : string 


默认 值 : /hbase 


zookeeper .znode.rootserver 


到 保存 根 region 位 置 的 znode 的 路 人 径 ， 这 个 值 是 由 master 来 更 狐 ， 
客户 端 和 region 服 务 絮 来 读 取 的 。 如 果 将 其 设置 为 一 个 相对 地 址 ， 父 


目 孙 就 是 ${zookeeper.znode.parent} 。 默 认 情 况 下 ， 根 region 位 置 的 存 
储 路 径 是 /hbase/root-region-server ° 


类 型 : string 
默认 值 : root-region-server 


© 这 里 的 代理 指 的 是 这 段 过 程 调用 过 程 中 客户 端的 接口 类 ， 用 于 表征 
服务 器 病 提供 的 方法 。 不 同 于 上 网 时 用 的 代理 。 一 一 译 者 注 


附录 B 计划 


HBase 一 直 在 发 展 ， 本 和 主要 介绍 HBase 近 期 的 发 展 计 划 。 


HBase 0.92.0 


这 一 版 的 主题 是 协 处 理 器 。 于 2011 年 第 三 季度 发 布 ， 其 中 增加 了 
以 下 几 个 重要 特性 。 


协 处 理 器 


这 是 HBase 一 个 主要 的 新 特性 ， 协 处 理 絮 可 以 帮助 用 户 编写 代码 
并 在 每 个 region 中 执行 ， 且 直接 返回 计算 结果 。 详 情 见 4.3 节 。 


分 布 式 日 志 拆 分 


在 region 服 务 器 中 ，WAL 被 并 行 、 分 布 式 地 进行 恢复 。 这 使 HBase 
与 BigTable 在 这 一 点 上 类 似 。 


UI 中 展现 任务 

目前 很 难 观 察 集 群 后 台 在 执行 什么 任务 ， 如 合并 或 拆 分 。 这 个 新 
特性 可 以 帮助 用 户 在 master 和 region 服 务 句 的 Web UI 中 观察 当前 集群 正 
在 执行 的 任务 的 状态 。 详 情 见 6.55m。 
性 能 提升 

性 能 提升 涉及 多 种 改进 ， 由 量变 引起 质变 ， 有 超过 260 个 优化 问题 


解决 方案 被 打包 到 0.92.0 版 本 中 〈 完 整 清单 参见 
https://issues.apache.org/jira/browse/HBASE/fixforversion/12314223 ) 


在 本 书 出 版 的 过 程 中 ，0.92.0 版 本 仍旧 在 发 展 。 有关 最 新 的 动向 用 
户 可 以 到 官方 网 址 查看 其 特性 列表 。 


HBase 0.94.0 


HBase 下 一 个 版 本 的 计划 是 安全 特性 ， 这 一 特性 会 在 0.94 版 本 中 体 
现 出 来 。 除 此 之 外 ， 还 有 其 他 一 些 重量 级 功能 特性 仍 处 于 人 研发 状态 ， 
详情 可 见 
https://issues.apache.org/jira/browse/HBASE/fixforversion/12316419 ° 
安全 (Security) 

在 HBase 中 增加 Kerberos 验 证 。 
辅助 索引 (Secondary Indexes) 


通过 协 处 理 顺 增加 辅助 索引 ， 人 允许 用 户 创建 和 管理 表 上 基于 列 的 


ZAIN 


搜索 集成 (Search Integration ) 


本 特性 使 用 户 可 以 创建 和 管理 搜索 索引 ， 例 如 ， 按 region 的 基于 
Apache Lucene 索 引 ， 这 样 用 户 可 以 在 行 或 列 中 搜索 数据 。 


HFile 格 式 第 二 版 (HFile v2) 
新 的 存储 格式 ， 克 服 了 现 有 存储 格式 的 缺点 。 


这 个 版 本 还 有 一 些 很 有 趣 的 功能 特性 ， 例 如 ， 插 件 式 块 缓存 特 
性 ， 该 特性 使 用 户 可 以 在 JRE 堆 内 存 之 外 管理 一 块 内 存 ， 有 利于 减少 


内 存 垃圾 一 这 一 点 恰好 是 HBase 集 群 在 读 写 压力 比较 大 的 情况 下 最 
值得 关注 的 问题 


更 多 的 相关 内 容 可 以 到 JIRA 平 台中 查看 。 


PASC ”版 本 升级 


升级 HBase 需 要 制定 非常 谨慎 详细 的 计划 ， 尤 其 是 生产 集群 。 深 
动 重启 可 以 帮助 用 户 不 停机 升级 ， 详 情 见 12.1.2 节 。 


一 一 全 依据 用 户 将 要 使 用 的 Hbase 版 本 ， 用 户 需 要 先 升级 
底层 Hadoop 版 本 并 使 Hadoop 版 本 与 HBase 依 赖 的 版 本 进行 匹 


配 ， 有 关 Hadoop 的 升级 指南 可 在 Hadoop 官 方 网 站 查阅 。 


升级 到 HBase 0.90.x 


由 于 用 户 使 用 的 HBase 版 本 可 能 不 同 ， 集 群 中 从 旧版 本 升级 到 新 
版 本 需要 不 同 的 步 怠 。 下 面 列 出 了 常规 的 升级 方案 。 


原始 版 本 0.20.x 或 0.89.x 


0.90.x 系 列 癌 下 兼容 ， 可 以 直接 读 取 0.20.x 版 本 产生 的 数据 。0.90.x 
与 0.89.x 会 通过 MD5 散 列 算法 (而 非 Jenkins 散 列 ) 计算 出 region 名 ， 并 
ee 一 旦 0.20.x 向 上 升级 ， 就 无 法 再 回 退 到 
0.20.x 系 列 了 。 


升级 时 一 定 要 先 从 conf 目 好 中 移 除 hbase-default.xml 这 个 文件 ， 与 
0.20.x 不 同 的 是 ，0.90.x 将 这 个 文件 默认 打包 到 了 JAR 中 ， 读 者 可 以 到 
src 目录 中 进行 查找 ， 风 $HBASE_HOME/src/main/resources/hbase- 
default.xml 或 者 见 附录 A ° 


升级 后 ， 用 户 需 要 通过 终端 检查 .META, 的 结构 。 以 前 有 人 建议 
以 16 KB 的 MEMSTORE_FLUSHSIZE 运行 。 在 Shell 中 执行 以 下 命令 : 


hbase(main):001:0> scan '-ROOT-' 


以 上 命令 可 以 输出 当前 的 ,META. 结构 。 检 查 
MEMSTORE_FLUSHSIZE 是 否 被 设置 为 了 16 KB (16384) ° WR 
是 ， 需 要 改变 这 种 情况 ， 默 认 的 新 值 是 64 MB (67108864 ) 。 运 行 
$HBASE_HOME/bin/set_meta_memstore_size.rb 脚本 ， 这 会 对 .META， 
结构 进行 必要 的 修改 ， 如 果 不 改 变 上 述 参 数 的 值 ， 集 群 运行 会 变 慢 O 


0.90.x 之 间 升 级 


这 种 情况 比较 简单 ， 用 户 只 需要 简单 地 安装 新 版 本 ， 然 后 使 用 
12.1.2 广 介绍 的 过 程 重启 region 服 务 妖 即 可 。 


升级 到 HBase 0.92.0 


滚动 重 局 是 不 可 能 的 ， 两 个 版 本 之 间 的 引导 协议 已 经 发 生 了 变 
化 。 用 户 需 要 提前 同步 准备 安 疼 ， 然 后 关闭 集群 ， 并 重新 以 新 版 本 局 
动 集群 ， 此 时 不 需要 迁移 数据 。 


© 2H) is 2 A “HBASE-3499 Users upgrading to 0.90.0 need to have 
their .META. table updated with the right MEMSTORE_ SIZE” ( 
http://issues.apache.org/jira/browse/HBASE-3499 ) ° 


附录 D 分 支 


除了 Apache 提 供 的 版 本 ， 用 户 还 可 以 有 其 他 的 选择 ， 下 面 我 们 束 
罗列 一 下 可 用 的 安装 版 本 。 


Cloudera 的 Hadoop 分 文 


Cloudera 的 版 本 (简称 CDH) 基于 Apache Hadoop 最 新 的 稳定 版 ， 
并 打 入 了 很 多 的 补丁 ， 做 了 较 多 的 移植 和 更 新 。Cloudera 提 供 了 非常 
多 的 部 署 程序 ， 源 代码 、 二 进 制 tar 文 件 、RPM、Debian 软 件 包 、 
VMware 镜 像 和 在 云 中 运行 CDH 的 脚本 。CDH 开 源 ， 发 行 版 基于 
Apache 2.0 的 许可 序列 号 ， 详 情 见 http:/www.cloudera.com/hadoop/ ° 


为 了 部 署 方便 ，Cloudera 提 供 了 yum 和 apt 库 。CDH 可 以 做 到 一 行 
命令 就 在 每 台 机 器 上 安装 和 配置 Hadoop 和 HBase， 需 要 快速 局 动 的 用 
户 可 以 自动 使 用 整个 集群 而 无 需 人 工 干涉 。 


CDH 管 理 跨 组 件 的 版 本 ， 并 提供 了 一 个 稳定 的 包含 兼容 的 一 组 软 
Ra ° CDER A FAFE (其 中 很 多 软件 包 在 本 书 中 都 介 
I : 


。 HDFS 一 一 分 布 式 文件 系统 

e MapReduce 一 一 强大 的 并 行 数据 处 理 框 淋 

e Hadoop Common 一 一 文 持 Hadoop 子 项 目的 实用 工具 集 
。 HBase 一 一 用 于 随机 读 写 的 Hadoop 数 据 库 

。 Hive 一 一 大 数据 集 的 类 SQL 查 询 和 表 

。 Pig 一 一 数据 流 语言 和 编译 絮 

e Oozie 相互 独立 的 Hadoop 作 业 工 作 流程 

e Sqoop 将 数据 库 数据 仓库 与 Hadoop 集 成 
。Flume 一 一 高 可 靠 、 可 配置 的 流 式 数 据 收集 框架 
e ZooKeeper 分 布 式 应 用 系统 的 协同 服务 

。 Hue 一 一 访问 Hadoop 的 桌面 程序 

e Whirr 一 套 在 云 上 运行 Hadoop 和 HBase 的 库 


对 于 HBase CDH 解 决 了 集群 安装 的 可 靠 性 问题 ， 且 拥有 HEFDS 的 
所 有 补丁 来 保证 持久 性 。 而 Hadoop 项 目 本 身 并 没有 在 0.20.x 系 列 中 为 
一 台 服 务 器 月 演 而 不 丢 数 据 的 情况 提供 支持 。 


要 下 载 CDH， 请 访问 http:/www.cloudera.com/downloads/ ° 


附录 E Hush SQL Schema 


HBase URL 短 地 址 〈“ 即 Hush) 结构 可 以 用 SQL 来 表示 : 


CREATE TABLE user ( 
id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 
username CHAR(20) NOT NULL, 
credentials CHAR(12) NOT NULL, 
roles CHAR(10) NOT NULL, // could be a separate table 
"userroles", but \ 
for the sake of brevity it is folded in here, eg. "AU" == 
"Admin, User" 
firstname CHAR(20), 
lastname CHAR(30), 
email VARCHAR(60), 
CONSTRAINT pk_user PRIMARY KEY (id), 
CONSTRAINT idx_user_username UNIQUE INDEX (username) 
); 


CREATE TABLE url ( 
id INTEGER UNSIGNED NOT NULL AUTO_ INCREMENT, 
url VARCHAR(4096) NOT NULL, 
refShortId CHAR(8), 
title VARCHAR( 200), 
description VARCHAR( 400), 
content TEXT, 
CONSTRAINT pk_url (id), 
) 


CREATE TABLE shorturl ( 

id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 

userId INTEGER, 

urlId INTEGER, 

shortId CHAR(8) NOT NULL, 

refShortId CHAR(8), 

description VARCHAR(400), 
CONSTRAINT pk_shorturl (id), 
CONSTRAINT idx_shorturl_shortid UNIQUE INDEX (shortId), 
FOREIGN KEY fk_user (userId) REFERENCES user (id), 
FOREIGN KEY fk_url (urlId) REFERENCES url (id) 


) 


CREATE TABLE click ( 
id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 


datestamp DATETIME, 
shortId CHAR(8) NOT NULL, 
category CHAR(2), 
dimension CHAR(4), 
counter INTEGER UNSIGNED, 
CONSTRAINT pk_clicks (id), 
FOREIGN KEY fk_shortid (shortId) REFERENCES shortid (id); 


MIRE 对比 HBase 和 BigTable 


HBase 整 体 上 实现 了 第 1 章 中 描述 的 所 有 的 BigTable 特 性 。 不 同 的 
征 ， 因 为 BigTable 论 文本 身 的 描述 不 是 非常 详细 ， 而 且 依赖 于 其 他 的 
开 涯 项 目 ， 因 此 两 者 的 工作 机 制 略 有 不 同 。 


HBase 使 用 的 时 间 蕉 单位 是 毫秒 一 BigTable 使 用 的 单位 是 微妙 。 
这 并 不 是 大 问题 ， 原 因 与 Java 和 C 语 言 的 特性 有 关 ， 这 两 种 语言 最 优 的 
计时 器 精度 不 同 。 


需要 指出 的 是 ， 两 者 使 用 了 不 同 的 压缩 算法 。HBase 使 用 的 是 Java 
提供 的 压缩 算法 ， 也 可 以 使 用 LZO 。 BigTable 有 一 种 两 阶段 的 压缩 
算法 ， 分 别 使 用 BMDiff 和 Zippy ° 


HBase 中 有 协 处 理 右 ， 这 不 同 于 BigTable 中 提供 的 Sawzall (类 似 于 
协 处 理 器 的 框架 ) 。 2 Google 的 协 处 理 器 实现 的 细节 并 不 详细 ， 因 此 
有 更 多 未 知 的 差异 。 另 一 方面 ，HBase 文 持 服 务 屡 端的 过 滤 妖 ， 可 以 
帮助 减少 从 服务 万 端 返回 到 客户 端的 数据 量 。 


HBase 主 要 工作 在 Hadoop 分 布 式 文件 系统 (HDFS) E, m 
BigTable 使 用 GFS。 但 是 ，HBase 也 可 以 工作 在 其 他 文件 系统 上 ， 还 要 
感谢 Hadoop 提 供 了 FileSystem 插件 ， 例 如 ，Amazon S3 (类 似 于 
HDFS) 和 EBS。 


HBase 不 能 映 映 存 储 文件 到 内 存 中 ，BigTable 则 可 以 。 目 前 有 正在 
进行 中 的 工作 来 优化 HBase 的 VO 性 能 并 广泛 使 用 的 Java 的 New I/O 
(NIO) ， 这 些 将 会 使 HBase 性 能 得 到 提升 。 


BigTable 还 有 一 个 特性 叫做 Jocality groups ， 该 特性 可 以 使 客户 端 
可 以 将 特定 的 列 族 组 合 ， 并 使 它们 分 享 属性 ， 如 压缩 ， 这 在 多 个 组 合 
列 经 常 同 时 被 访问 时 非常 有 好 处 ， 因 为 它们 的 数据 会 被 放 到 相同 的 存 
储 文件 中 。 在 BigTable 中 ， 列 族 被 用 于 统计 和 访问 控制 ， 而 在 HBase 
中 ， 则 是 截然 不 同 的 概念 跟 用 法 。 


两 个 系统 中 都 有 块 缓存 ，BigTable 还 实现 了 键 / 值 缓 存 (key/value 
cache) ， 用 于 被 经 常 访问 的 热点 单元 格 。 


两 个 系统 对 提交 日 志 的 处 理 和 实现 也 略 有 不 同 ，BigTable 有 两 种 
处 理 慢 写 的 提交 日 志 ， 并 且 可 以 目 动 切换 两 种 模式 。 这 个 特性 也 可 以 
在 Hbase 中 实现 ， 但 目前 还 没有 一 个 相应 的 议题 被 讨论 过 ， 所 以 也 一 直 
ERKAM T ° 


相 比 而 言 ，HBase 提 供 了 路 过 写 提交 日 志 的 方式 ， 这 种 模式 会 带 
提升 ， 但 前 提 是 要 保证 可 以 接受 服务 右 朋 种 后 数据 丢失 的 
Ey o 


METADATA 表 在 BigTable 中 可 以 用 来 存储 二 级 信息 ， 例 如 ， 与 每 
个 表 段 (tablel) 相关 的 事件 信息 。 这 些 信息 可 以 用 来 分 析 表 段 的 转 
~ "HBase 早 就 实现 了 类 似 的 功能 ， 但 是 因为 性 能 不 


region 拆 分 征 相 似 的 ， 但 是 合并 有 所 不 同 。 HBase 提 供 了 一 个 工具 
来 手动 合并 region， 而 BigTable 中 提供 了 目 动 合 并 region 的 逻辑 。 合 并 
eee 工作 ， 目 前 需要 运 维 人 员 决 定 如 如 何 操 
取 优 。 


另外 一 个 细小 的 差距 是 ，BigTable 的 master 提 供 了 存储 文件 的 垃圾 
回收 。 这 样 做 的 一 个 原因 可 能 是 在 BigTable 中 ， 存 储 文件 在 METADATA 
表 中 被 跟踪 。 对 于 HBase 而 言 ， 清 理 是 由 region 服 务 絮 完成 的 ， 在 
region 服 务 器 做 完 拆 分 后 并 没有 专门 记录 文件 的 位 置 。 


BigTable 可 以 在 内 存 中 映射 存储 文件 ， 这 使 得 在 查询 时 没有 磁盘 
寻 道 。HBase 中 可 以 在 列 族 一 级 配置 在 内 存 中 (in-memory) 属性 ， 该 
属性 被 用 于 LRU 算 法 中 ® 以 保证 其 尽 可 能 不 被 淘汰 。 

两 者 的 合并 算法 也 不 相同 。 例 如 ， 合 并 时 也 包含 内 存 数据 刷 写 。 
而 其 他 的 则 是 相同 的 ， 只 是 命名 不 同 。 


region 名 存储 在 HBase 的 meta 表 中 ， 结 合 了 表 名 、 起 始 行 健 和 一 个 
ID， 而 在 BigTable 中 ， 则 使 用 表 标 识 符 和 终止 行 健 组 合 。 这 种 设计 在 
存储 文件 中 定位 数据 位 置 时 稍稍 有 些 影响 (详情 见 8.4 节 ) 。 


最 后 ， 值 得 注意 的 是 ，HBase 拥 有 两 个 独立 的 目录 表 ， 即 -ROOT- 
和 .META.。 在 BigTable 中 只 有 root 表 ， 由 于 两 种 系统 中 它们 都 只 包含 
一 个 region/ 表 段 ，BigTable 中 root 被 存储 为 meta 表 的 一 部 分 。 在 
METADATA 表 中 ， 第 一 个 表 段 为 root 表 ， 其 余 表 段 都 为 meta 表 段 。 这 
些 仅仅 是 实现 的 细节 。 


D 在 写 这 本 书 时 ，Google 将 Zippy 发 布 在 了 Apache 许 可 下 ， 命 名 为 
Snappy。 详 情 见 链接 http://code.google.com/p/snappy/ ° 


@ Jeff Dean 在 LADIS *09 有 一 个 关于 协 处 理 器 的 谈话 ( 
http:/www.scribd.com/doc/2163448/Dean-Keynote-Ladis2009, 66-67 
TH) ° 


N 


@ J Wikipedia‘ Cache algorithms — 7 ° 


关于 作者 


Lars George 从 2007 年 开始 参与 HBase 的 项 目 ， 到 2009 年 已 经 成 为 
HBase comitter。 他 参加 了 各 种 Hadoop 用 户 组 会 议 以 及 一 些 大 型 的 会 
议 ， 如 在 布鲁塞尔 举行 的 FOSDEM， 同 时 他 还 在 慕尼黑 创办 了 Munich 
OpenHUG 会 议 。 目 前 他 在 Cloudera 工 作 ， 担 任 解 决 方案 架构 师 ， 在 欧 
洲 地 区 提供 Hadoop 与 HBase 的 技术 支持 、 咨 询 和 培训 。 


大 于 封面 


《HBase 权 威 指南 》 封 面 上 的 动物 是 克 羔 效 代 尔 蕊 。 它 起 源 于 苏 
格 兰 地 区 ， 其 历史 可 以 追溯 到 19 世 纪 初 ， 是 进口 的 佛 兰 德 种 马 与 当地 
母 马 杂交 产生 的 品种 。 这 种 马 的 演 殖 征 为 了 满足 当地 农民 的 需要 ， 以 
及 在 全 国 各 地 运输 迷 况 以 及 其 他 货物 。 由 于 它 作 为 负重 马 非常 可 靠 ， 
20 世 纪 初 ， 克 莱 效 代 尔 马 开始 被 出 口 到 许多 国家 ， 包 括 澳大利亚 、 新 
西 兰 、 加 拿 大 和 美国 。 机 械 时 代 的 到 来 降低 了 对 这 一 品种 的 需求 ， 虽 
然 20 世 纪 后 期 对 该 马 的 需求 量 出 现 了 小 幅 上 升 ， 但 这 种 马 仍 然 被 认为 
征 容 易 灭 绝 的 品种 。 


现代 的 克 莱 兹 代 尔 马上 略 大 于 原来 的 苏格兰 马 ， 品 种 标准 高 有 度 162~ 
183 cm (Aj64~722) , He 2725~998 kg (24)1600~22008%) ° 
NT, SPE S 2 ERAN AR o SUSE IK Sith 
品种 相 比 ， 有 非常 鲜明 的 特征 ， 尤 其 是 其 腿 部 和 高 昂 的 步伐 。 它 的 刁 
体 通常 是 汞 神色 的 、 标 色 或 黑色 的 ， 日 色 或 红 标 色 的 紧 毛 。 亮 白 的 脸 
和 腿 与 深 色 的 号 体形 成 鲜明 对 比 ， 不 过 腿 是 黑色 的 马 也 并 不 罕见 。 众 
所 周知 的 是 ， 它 的 脚 的 大 小 刚好 适合 盘子 大 小 的 马蹄 铁 。 


虽然 在 很 大 程度 上 拖拉 机 取代 了 马 的 地 位 ， 但 克 莱 效 代 尔 马 仍然 
是 农业 生产 中 不 可 或 缺 的 生产 物资 ， 同 时 也 用 于 骑 、 运 和 输 服 务 和 旅游 
T o FEH, RRI HÆ Anheuser Busch 酸 酒 公司 营销 活动 使 用 
的 马队 中 最 常 选 用 的 品种 。 


欢迎 来 到 异步 社区 ! 
异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运 营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 上 自 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 提 供 最 新 技术 
资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 


EFIR 


FERS 


FEE BEARS HAMAR ! 
异步 社区 的 来 历 异步 社区 是 人 民 闻 电 出 版 社 旗下 
TE, VABRE, F2015 年 8 月 上 线 运 
营 ， 界 步 社区 依托 于 人 民 闻 电 出 版 社 20% 年 的 IT 
专业 
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周年 庆 满 减 促销 | 满 100 元 减 20 元 、 满 150 元 威 35 元 、 满 200 元 减 50 元 + 更 全 
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HTML5 妖 会 北京 站 ,我 在 这 里 , Sie. 为 
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社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 红 杨 销 图 蔬 "社区 现 已 上 线 图 书 1000 余 种， 电池 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
BPM 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


男 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
束 可 以 免费 下 载 。 


与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 
还 可 以 参与 社区 的 作者 访谈 栏目 ， 辐 您 关注 的 作者 提出 采 
访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 香 购 头 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 
民 邮 电 出 版 社 书库 发 信 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 om 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 .注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG ”， 然 后 点 击 “ 使 用 优惠 码 ”， 即 J3 SCHL 世 8 折 优惠 Cit IA ALT 一 


1 次 ) 。 
纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 
购买 ， 多 种 阅读 选择 。 


软 技能 : 代码 之 外 的 生存 指南 
(ži Z. FIS (John Z. Sonmez ) (作者 ) 王 小 刚 GS) hiss (EARR) 
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> iris "lok US 


这 是 一 本 真正 从 “人 ” (而 非 技术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 甩 身 发 展 的 书 。 书 中 论述 的 
内 容 茎 涉及 生活 习惯 ， 又 包括 态 维 方式 ， 翁 显 技术 中 “人 ”的 因素 ,全面 讲 解 软 件 行 业 从 业 人 员 所 
BABA “SRR . 

SRRETREFRARSEHABOS . 从 揭秘 画 试 的 污 程 到 精 耕 绍 作出 一 份 杀手 级 简历 ， 从 创 
建 大 委 欢 迎 的 屡 客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 李 到 与 如 何 与 “拖延 首 ” 做 斗争 ， 到 至 
包括 如 何 投资 不 动产 ， 如 何 关注 舍 己 的 健康 , 

本 书 共 分 为 职业 简 、 自 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神往 等 七 简 ， 概 括 了 软 


ò 纸 质 版 ¥59:00 ¥46.02(7 
电子 版 半 35.00 
电子 版 + 纸 质 版 ” 关 59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提 区 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勤 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 斌 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 和 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 有 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 


特色 服务 。 
会 议 活 动 早 知道 

您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
加 入 异步 

扫 搬 任意 二 维 码 都 能 找到 我 们 : 


异步 社区 


微 信服 务 号 


QQ 群 : 368449889 


社区 网 址 : www.epubit.com.cn 

官方 微 信 : 异步 社区 

官方 微 博 : @ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 
投稿 && 咨 询 : contact@epubit.com.cn 


s2 
看 完了 

如 宁 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@Depubit.com.cn， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 异步 社区 ， 参 与 本 书 讨论 。 

如 有 果 是 有 天 电子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@epubit.com.cn ° 
在 这 里 可 以 找到 我 们 : 


。 微 博 : @ 人 邮 异 步 社区 
。 QQ#: 368449889 


